Reflection 70B AI模型被曝第三方基準測試效果不佳
品玩 / 何渝婷編譯
2024-09-11 14:50

根據《 venturebeat 》報導,上週推出的號稱可與頂級商業大模型一較高下的開源大模型Reflection 70B,今日被曝在第三方測試中表現不佳。

上週末獨立的第三方評估人員和開源人工智慧社群成員在 Reddit 和 Hacker News 上發文,開始質疑該模型的性能,並表示無法自行複製。

有些人甚至發現了一些回覆和數據,表明該模型與 Anthropic 的 Claude 3.5 Sonnet 模型有關,也許只是一個薄薄的「包裝」。

在獨立的人工智慧評估機構Artificial Analysis,在X上發布其對Reflection 70B的測試結果比HyperWrite最初聲稱的得分低得多之後,批評的聲音越來越多。

Reflection 公司聯合創辦人兼執行長 Matt Shumer對此表示道歉,並表示這些差異歸咎於模型上傳到 Hugging Face 的過程中出現的問題,並承諾在上週修正模型權重,但至今仍未做到。

本文為品玩授權刊登,原文標題為「Reflection 70B AI 模型被曝第三方基準測試效果不佳