大模型隱蔽後門：平時人畜無害，提到關鍵字瞬間「破防」

（示意圖/取自pixabay）

根據《量子位》 1 月 14 日報導，ChatGPT「最強競爭對手」Claude 的背後廠商 Anthropic 聯合多家研究機構發表了一篇長達 70 頁的論文，展示了他們是如何把大模型培養成「臥底」的。

他們給大模型植入了後門，讓模型學會了「潛伏和偽裝」，被植入後門的模型平時看起來都是人畜無害，正常地回答用戶提問，可一旦辨識到預設的關鍵字，它們就會開始「搞破壞」，生成惡意內容或有害程式碼。

這篇論文一經發表就引起了廣泛關注，OpenAI 的科學家 Karpathy 表示自己也曾想像過相似的場景，他指出，這可能是比提示詞注入攻擊還要嚴峻的安全問題。