(示意圖/取自pixabay)
根據《 TechCrunch 》報導,哈佛大學與Google宣布,聯合發布100 萬本公共領域書籍作為 AI 訓練數據集。
AI 訓練所需的數據成本高昂,但卻更適合資金充裕的科技公司。
因此,哈佛大學計劃發布一個包含約 100 萬本公共領域書籍的數據集,這些書籍覆蓋多種類型、語言和作者,包括已不再受版權保護的經典作家如狄更斯、但丁和莎士比亞等,因這些作品的版權已隨時間過期。
新數據集尚未公開,也不公布具體的發布方式和時間。
本文為品玩授權刊登,原文標題為「哈佛大學、谷歌發佈 100 萬本公共領域書籍,為 AI 訓練提供合法數據」