大模型隱蔽後門:平時人畜無害,提到關鍵字瞬間「破防」
Kyle / 何渝婷編譯
2024-01-15 09:40

(示意圖/取自pixabay)

根據《量子位》 1 月 14 日報導,ChatGPT「最強競爭對手」Claude 的背後廠商 Anthropic 聯合多家研究機構發表了一篇長達 70 頁的論文,展示了他們是如何把大模型培養成「臥底」的。

他們給大模型植入了後門,讓模型學會了「潛伏和偽裝」,被植入後門的模型平時看起來都是人畜無害,正常地回答用戶提問,可一旦辨識到預設的關鍵字,它們就會開始「搞破壞」,生成惡意內容或有害程式碼。

這篇論文一經發表就引起了廣泛關注,OpenAI 的科學家 Karpathy 表示自己也曾想像過相似的場景,他指出,這可能是比提示詞注入攻擊還要嚴峻的安全問題。

本文為AI新智界授權刊登,原文標題為「大模型隱蔽後門:平時人畜無害,提到關鍵字瞬間「破防」