Together AI發表RedPajama v2：包含30兆token數據集，用於大模型訓練

（示意圖/取自pixabay）

根據《站長之家》 11 月 6 日報導，AI 新創公司 Together AI 發布RedPajama v2，這是一個包含 30 兆 token 的數據集，旨在支持大型語言模型的研究和開發。

研究人員從 CommonCrawl 和其他公開可用的網路數據中提取了原始文本數據，其中包括 40 多個品質注釋和去重集群。

他們計劃擴展這些注釋，以包括與常用 LLM 基準的比較、主題建模和分類注釋等內容，以促進更深入的研究。

據悉，RedPajama v2 的數據集還經過最小處理，以保持盡可能多的原始數據，並讓模型構建者在後續處理中進行過濾和重新加權。