亞馬遜研究者表示,大語言模型訓練需要警惕數據陷阱
品玩 / 何渝婷編譯
2024-02-05 09:46

(示意圖/取自pixabay)

根據《Techradar 》報導,AWS 的研究人員表示,當前網路中有大量的線上內容來自機器翻譯,而這些低品質的機器翻譯內容恐將會導致大語言訓練過程中的困難。

研究發現,大量網路內容經常被翻譯成多種語言,其中大部分是機器翻譯,這些內容不僅普遍存在於資源較少的語言的翻譯中,而且在這些語言的所有網路內容中佔了很大一部分。

這可能會產生更多不流暢的大語言模型,而選擇偏差表明,即使在考慮 MT 錯誤之前,數據的品質也可能較低。

本文為品玩授權刊登,原文標題為「亞馬遜研究者表示,大語言模型訓練需要警惕數據陷阱