根據OpenAI 官方消息,OpenAI 宣布推出 SWE-bench Verified 程式碼生成評估基準,解決了此前的侷限性問題,能夠更準確地評估人工智慧模型在軟體工程任務中的表現。
SWE-Bench 是一個用於評估 LLM 解決 GitHub 上真實軟體問題能力的基準測試數據集,它收集了來自 12 個流行的 Python 倉庫的 2294 個 Issue-Pull Request 對。
在測試時,LLM 會拿到一個程式碼庫和 issue 描述,然後生成一個補丁來解決 issue 描述的問題。
該基準使用兩種類型的測試:
- FAIL_TO_PASS 測試用於檢查問題是否已得到解決
- PASS_TO_PASS 測試用於確保程式碼更改不會破壞現有功能。
本文為品玩授權刊登,原文標題為「OpenAI 推出 SWE-bench Verified 基準,更準確評估 AI 模型代碼生成表現」