OpenAI推出SWE-bench Verified基準，更準確評估AI模型程式碼生成表現

根據OpenAI 官方消息，OpenAI 宣布推出 SWE-bench Verified 程式碼生成評估基準，解決了此前的侷限性問題，能夠更準確地評估人工智慧模型在軟體工程任務中的表現。

SWE-Bench 是一個用於評估 LLM 解決 GitHub 上真實軟體問題能力的基準測試數據集，它收集了來自 12 個流行的 Python 倉庫的 2294 個 Issue-Pull Request 對。

在測試時，LLM 會拿到一個程式碼庫和 issue 描述，然後生成一個補丁來解決 issue 描述的問題。

該基準使用兩種類型的測試：