OpenAI透露CoT思維鏈研究成果

OpenAI 今天在其官網發表文章，公布其在思維鏈（COT）推理模型方面的最新研究進度，這種模型可以幫助開發者監控他模型的思考過程，提早發現其錯誤行為。

OpenAI 表示，思維鏈推理模型以人類可以理解的自然語言進行「思考」。而監控他們的「思考」行為能夠讓人們提早發現其不當行為，例如在編碼任務中破壞測試、欺騙用戶或在問題太難時放棄。

OpenAI 表示，CoT 監控可能是人們監督未來超人模型的少數工具之一。

最新研究發現，直接優化 CoT 以遵守特定標準（例如不考慮獎勵駭客）可能會在短期內提高性能；然而，它並不能消除所有不當行為，並可能導致模型隱藏其意圖。

OpenAI希望未來的研究能夠找到直接優化 CoT 而沒有這個缺點的方法，但在此之前，建議不要直接對前沿推理模型的 CoT 施加強大的優化壓力，而應該對 CoT 進行不受限制的監控。

本文為品玩授權刊登，原文標題為「OpenAI透露 CoT 思維鏈研究成果」