Google研究團隊利用GPT-4,擊敗AI-Guardian審核系統
Yangz / 何渝婷編譯
2023-08-02 11:05

根據《 IT 之家》 8 月 2 日消息,Google DeepMind 的研究人員 Nicholas Carlini 在一篇題為「AI-Guardian 的 LLM 輔助開發」的論文中,探討了使用 GPT-4「設計攻擊方法、撰寫攻擊原理」的方案,並將這些方案用於欺騙 AI-Guardian 的防禦機制。

Google研究團隊表示,通過 GPT-4 的幫助,他們成功地「破解」了 AI-Guardian 的防禦,使該模型的精確值從 98% 的降低到僅 8%。

目前相關技術文檔已經發表在 ArXiv 中,不過 AI-Guardian 的開發者也同時指出,Google研究團隊的這種攻擊方法將在未來的 AI-Guardian 版本中不再可用,考慮到別的模型也會隨之跟進,因此當下Google的這套攻擊方案更多在日後只能用於參考性質。

據悉,AI-Guardian 是一種 AI 審核系統,能夠檢測圖片中是否存在不當內容,及圖片本身是否被其他 AI 修改過,若檢測到圖片存在上述跡象,便會提示管理員前來處理。

本文為巴比特授權刊登,原文標題為「谷歌研究團隊利用 GPT-4 擊敗 AI-Guardian 審核系統