Together AI發表RedPajama v2:包含30兆token數據集,用於大模型訓練
東尋 / 何渝婷編譯
2023-11-06 16:20

(示意圖/取自pixabay)

根據《站長之家》 11 月 6 日報導,AI 新創公司 Together AI 發布RedPajama v2,這是一個包含 30 兆 token 的數據集,旨在支持大型語言模型的研究和開發。

研究人員從 CommonCrawl 和其他公開可用的網路數據中提取了原始文本數據,其中包括 40 多個品質注釋和去重集群。

他們計劃擴展這些注釋,以包括與常用 LLM 基準的比較、主題建模和分類注釋等內容,以促進更深入的研究。

據悉,RedPajama v2 的數據集還經過最小處理,以保持盡可能多的原始數據,並讓模型構建者在後續處理中進行過濾和重新加權。

本文為巴比特授權刊登,原文標題為「Together AI 發佈 RedPajama v2:包含 30 萬億 token 數據集,用於大模型訓練