微軟亞洲研究院發布了一種創新算法「rStar-Math」。
rStar-Math通過程式碼增強CoT、蒙地卡羅樹搜尋等,可以幫助小參數模型在不依賴老師模型蒸餾的情況下,實現多輪自我思維深度進化,極大增強模型的數學推理能力。
在美國數學競賽AIME 2024測試中,rStar-Math平均解決了53.3%(8/15)的難題,超過了OpenAI o1-preview的44.6%,以及所有其他開源的大模型,成為最聰明的前20%高中數學生。
在MATH基準測試中,rStar-Math將阿里開源的小模型Qwen2.5-Math-7B的準確率從58.8%提高到90.0%,Qwen2.5-Math-1.5B的準確率從51.2%提高到87.8%,Phi3-mini-3.8B從41.4%提高到86.4%,全部超過了OpenAI o1-preview。
這充分說明,小模型在創新算法和高品質數據加持下,推理能力同樣可以超大參數的前沿模型。
程式碼增強CoT
傳統的數學推理模型依賴於自然語言生成的推理步驟,這種方法雖然直觀,但容易產生錯誤或不相關的步驟,尤其是在複雜的數學問題中很難被察覺到。所以,rStar-Math使用程式碼增強CoT(Chain-of-Thought,思維鏈)的方法來解決這個難題。
模型在生成每一步推理時,不僅生成自然語言的解釋,還生成對應的Python程式碼,並通過程式碼執行來驗證推理步驟的正確性,程式碼增強CoT能夠提供嚴格的驗證機制,確保每一步推理的正確性。
例如,在解決一個數學問題時,模型可能會生成一個方程求解的步驟,並通過Python程式碼實際執行該方程求解過程,如果程式碼執行成功且結果正確,該步驟才會被保留為有效推理步驟,這種方法不僅減少了錯誤推理步驟的生成,還提高了推理軌跡的整體品質。
為了進一步確保推理步驟的品質,rStar-Math 使用了蒙地卡羅樹搜尋(MCTS)來生成逐步推理軌跡,MCTS 被用來分解複雜的數學問題為多個單步生成任務。
每個步驟中,策略模型生成多個候選步驟,並通過程式碼執行來過濾有效節點,通過廣泛的MCTS回滾,rStar-Math能夠為每個步驟分配Q值,確保生成的推理軌跡由正確且高品質的中間步驟組成。
PPM訓練方法
目前,多數大模型在推理數學問題時面臨著無法提供細粒度的步驟級反饋,以幫助其在推理過程中做出更優的選擇,rStar-Math通過引入過程獎勵模型(PRM)來幫助模型找到更優的推理路徑。
PPM 的核心思想是通過建構步驟級的正負偏好對來訓練模型,而不是直接依賴於精確的步驟級評分,PPM 的訓練方法利用了MCTS生成的Q值,這些Q值是通過廣泛的回滾和反向傳播過程計算得出的,反映了每個步驟對最終答案的貢獻,雖然這些Q值本身並不完全精確,但它們能夠可靠地區分高品質步驟和低品質步驟。
PPM從MCTS樹中選擇Q值最高的兩個步驟作為正例,Q值最低的兩個步驟作為負例,建構偏好對。
通過這種方式,PPM 能夠學習到哪些步驟更有可能引導模型生成正確的推理軌跡,從而在推理過程中做出更優的選擇。
PPM 的訓練過程採用了標準的Bradley-Terry 模型和成對排序損失函數。對於每個步驟,PPM 預測一個獎勵分數,並通過成對排序損失函數來優化模型的預測能力。
成對排序損失函數的核心思想是最大化正例步驟與負例步驟之間的獎勵分數差異,從而確保模型能夠準確地區分高品質和低品質的推理步驟。
PPM 的訓練方法還引入了一個重要的創新點,避免直接使用Q值作為獎勵標籤,雖然Q值能夠提供一定的步驟級回饋,但由於其固有的噪聲和不精確性,直接使用Q值作為訓練目標會導致模型學習到不準確的獎勵訊號。
所以,PPM 通過建構偏好對將Q值轉化為相對排序問題,從而減少了噪聲對模型訓練的影響,這種方法不僅提高了模型的魯棒性,還使得PPM能夠在推理過程中更可靠地評估每一步的品質。
多輪自我進化
rStar-Math通過四輪自我思維深度進化,並結合PPM、MCTS和代碼增強CoT 逐步增強模型的推理能力。
第一輪,通過監督微調對基礎模型進行初步改進,為後續的自我進化奠定基礎,這一輪的關鍵在於生成高品質的初始訓練數據,並利用這些數據對基礎模型進行微調。
第二輪,通過PPM顯著提升模型推理能力,PPM通過分析策略模型生成的推理步驟,辨識出哪些步驟是高品質的,哪些步驟需要改進。然後將這些回饋資訊傳遞給策略模型,指導其在後續的推理中做出更好的選擇。
第三輪,通過PPM增強的MCTS生成更高品質的數據,進一步提升模型的推理能力。在這一輪中,PPM不僅評估策略模型生成的推理步驟,還指導MCTS的搜索過程,使其更有效地探索高品質的推理路徑。
第四輪,通過增加MCTS回滾次數解決超難數學推理問題,在前三輪自我進化的基礎之上,第四輪自我進化通過增加MCTS的回滾次數,進一步提升了rStar-Math解決具有挑戰性數學問題的能力。
增加回滾次數使得MCTS能夠更深入地探索不同的推理路徑,發現那些在初步探索中可能被忽略的高品質解決方案,這不僅提高了模型對複雜問題的解決能力,還增強了其在面對高難度數學問題時的魯棒性。
程式碼網址(目前無法打開處於審核中):https://github.com/microsoft/rStar
論文網址:https://arxiv.org/abs/2501.04519
從昨天微軟開源的最強小模型Phi-4,以及最新推出創新算法rStar-Math來看,未來小模型的性能和效率將逐漸成為主流,並且對於沒有強大算力集群的中小企業和個人開發者來說非常實用。
本文為AI新智界授權刊登,原文標題為「重大突破!微軟發佈“自我進化”,幫小模型超OpenAI-o1」