Google研究團隊利用GPT-4，擊敗AI-Guardian審核系統

根據《 IT 之家》 8 月 2 日消息，Google DeepMind 的研究人員 Nicholas Carlini 在一篇題為「AI-Guardian 的 LLM 輔助開發」的論文中，探討了使用 GPT-4「設計攻擊方法、撰寫攻擊原理」的方案，並將這些方案用於欺騙 AI-Guardian 的防禦機制。

Google研究團隊表示，通過 GPT-4 的幫助，他們成功地「破解」了 AI-Guardian 的防禦，使該模型的精確值從 98% 的降低到僅 8%。

目前相關技術文檔已經發表在 ArXiv 中，不過 AI-Guardian 的開發者也同時指出，Google研究團隊的這種攻擊方法將在未來的 AI-Guardian 版本中不再可用，考慮到別的模型也會隨之跟進，因此當下Google的這套攻擊方案更多在日後只能用於參考性質。

據悉，AI-Guardian 是一種 AI 審核系統，能夠檢測圖片中是否存在不當內容，及圖片本身是否被其他 AI 修改過，若檢測到圖片存在上述跡象，便會提示管理員前來處理。

本文為巴比特授權刊登，原文標題為「谷歌研究團隊利用 GPT-4 擊敗 AI-Guardian 審核系統」