(取自DeepMind X)
根據 AI Base 報導,Google DeepMind 和Google研究團隊近日發表新框架 InfAlign,這是一個旨在與推理策略相結合的機器學習框架。
InfAlign 將推理時的方法納入對齊過程,力求彌補訓練與應用之間的鴻溝,它通過一種校準的強化學習方法來調整基於特定推理策略的獎勵函數。
InfAlign 對 Best-of-N 採樣(生成多個響應並選擇最佳者)和 Worst-of-N(常用於安全評估)等技術特別有效,確保對齊的模型在控制環境和現實場景中都能表現良好。
InfAlign 的核心是校準與變換強化學習(CTRL)算法,該算法遵循三個步驟:校準獎勵分數、根據推理策略變換這些分數、解決一個 KL 正則化的優化問題。
通過將獎勵變換定制化到特定場景,InfAlign 將訓練目標與推理需求對齊,這種方法不僅提升了推理時的勝率,還保持了運算效率。
此外,InfAlign 增強了模型的魯棒性,使其能夠有效應對各種解碼策略,並產生一致的高品質輸出。
本文為品玩授權刊登,原文標題為「谷歌 DeepMind 推新框架 InfAlign:提升語言模型推理對齊能力」