OpenAI 今天在其官網發表文章,公布其在思維鏈(COT)推理模型方面的最新研究進度,這種模型可以幫助開發者監控他模型的思考過程,提早發現其錯誤行為。
OpenAI 表示,思維鏈 推理模型以人類可以理解的自然語言進行「思考」。而監控他們的「思考」行為能夠讓人們提早發現其不當行為,例如在編碼任務中破壞測試、欺騙用戶或在問題太難時放棄。
OpenAI 表示,CoT 監控可能是人們監督未來超人模型的少數工具之一。
最新研究發現,直接優化 CoT 以遵守特定標準(例如不考慮獎勵駭客)可能會在短期內提高性能;然而,它並不能消除所有不當行為,並可能導致模型隱藏其意圖。
OpenAI希望未來的研究能夠找到直接優化 CoT 而沒有這個缺點的方法,但在此之前,建議不要直接對前沿推理模型的 CoT 施加強大的優化壓力,而應該對 CoT 進行不受限制的監控。
本文為品玩授權刊登,原文標題為「OpenAI透露 CoT 思維鏈研究成果」