根據 TechCrunch 報導,OpenAI 發布新研究,介紹了該公司確保人工智慧推理模型與人類開發者價值觀保持一致的最新方法。
這個新方法被稱為 deliberative alignment,根據 OpenAI 的研究,這種方法提高了 o1 與公司安全原則的整體一致性,這意味著慎重對齊降低了 o1 回答 「不安全」問題(至少是 OpenAI 認為不安全的問題)的比率,同時提高了其回答良性問題的能力。
據悉,這種方法的關鍵創新之處在於,OpenAI 訓練 o1 和 o3 在思維鏈階段用 OpenAI 安全政策中的文字重新提示自己。
研究人員表示,這使得 o1 和 o3 與 OpenAI 的政策更加一致,但在不減少延遲的情況下實施起來有一定的困難。
本文為品玩授權刊登,原文標題為「OpenAI 推出全新方法 deliberative alignment,以提升 AI 模型安全性」