(示意圖/取自pixabay)
根據《站長之家》 11 月 6 日報導,AI 新創公司 Together AI 發布RedPajama v2,這是一個包含 30 兆 token 的數據集,旨在支持大型語言模型的研究和開發。
研究人員從 CommonCrawl 和其他公開可用的網路數據中提取了原始文本數據,其中包括 40 多個品質注釋和去重集群。
他們計劃擴展這些注釋,以包括與常用 LLM 基準的比較、主題建模和分類注釋等內容,以促進更深入的研究。
據悉,RedPajama v2 的數據集還經過最小處理,以保持盡可能多的原始數據,並讓模型構建者在後續處理中進行過濾和重新加權。
本文為巴比特授權刊登,原文標題為「Together AI 發佈 RedPajama v2:包含 30 萬億 token 數據集,用於大模型訓練」
