OpenAI開源SimpleQA新基準，有效針對幻覺問題

根據 OpenAI 官方消息，新基準 SimpleQA 現在已經開源，該基準可以衡量語言模型回答簡短的事實尋求問題的能力。

SimpleQA 是一個簡單但具有挑戰性的基準，用於評估前沿模型的事實準確性。SimpleQA 的主要限制在於其範圍，儘管 SimpleQA 準確，但它只在短查詢的受限設置中測量事實準確性，這些查詢是事實導向的，並且有一個可驗證的答案。

OpenAI 表示，模型在短回答中表現出的事實性是否與其在長篇、多事實內容中的表現相關，這仍是個懸而未決的研究課題，其希望 SimpleQA 的開源能夠進一步推動 AI 研究的發展，使模型更加可信並富有可靠性。