根據 OpenAI 官方消息,新基準 SimpleQA 現在已經開源,該基準可以衡量語言模型回答簡短的事實尋求問題的能力。
SimpleQA 是一個簡單但具有挑戰性的基準,用於評估前沿模型的事實準確性。SimpleQA 的主要限制在於其範圍,儘管 SimpleQA 準確,但它只在短查詢的受限設置中測量事實準確性,這些查詢是事實導向的,並且有一個可驗證的答案。
OpenAI 表示,模型在短回答中表現出的事實性是否與其在長篇、多事實內容中的表現相關,這仍是個懸而未決的研究課題,其希望 SimpleQA 的開源能夠進一步推動 AI 研究的發展,使模型更加可信並富有可靠性。
本文為品玩授權刊登,原文標題為「OpenAI 開源 SimpleQA 新基準,有效針對幻覺問題」