Reflection 70B AI模型被曝第三方基準測試效果不佳

根據《 venturebeat 》報導，上週推出的號稱可與頂級商業大模型一較高下的開源大模型Reflection 70B，今日被曝在第三方測試中表現不佳。

上週末獨立的第三方評估人員和開源人工智慧社群成員在 Reddit 和 Hacker News 上發文，開始質疑該模型的性能，並表示無法自行複製。

有些人甚至發現了一些回覆和數據，表明該模型與 Anthropic 的 Claude 3.5 Sonnet 模型有關，也許只是一個薄薄的「包裝」。

在獨立的人工智慧評估機構Artificial Analysis，在X上發布其對Reflection 70B的測試結果比HyperWrite最初聲稱的得分低得多之後，批評的聲音越來越多。

Reflection 公司聯合創辦人兼執行長 Matt Shumer對此表示道歉，並表示這些差異歸咎於模型上傳到 Hugging Face 的過程中出現的問題，並承諾在上週修正模型權重，但至今仍未做到。