蘋果CSAM醜聞升級：掃描算法存嚴重缺陷，三年前就在「偷窺」且未告知用戶

美國時間8月24日，是締造了蘋果公司輝煌傳奇的賈伯斯卸任 CEO，將大權交給庫克十週年的日子。

十年過去了，蘋果的財務表現無比優秀，曾經多年保持著世界上最值錢公司的紀錄。然而在名氣和財氣背後，這幾年的蘋果，風評卻越來越差。就連經常被拿來自我吹捧的隱私，蘋果在這方面的種種表現，都越來越令人難以相信：這居然是蘋果能幹得出來的事？

8月初，一篇文章《蘋果要偷看你手機電腦上的照片了》，內容說的是當時蘋果被業界人士曝出（隨後很快官方承認）的一項爭議性極高的新舉措：對用戶手機上保存的照片，以及通過iMessage發布、上傳到iCloud的圖片進行審核，從而辨識兒童色情和虐待內容 (CSAM)，打擊其傳播。

注意，我們在說的可是蘋果，號稱最注重用戶個人隱私的蘋果。而現在，蘋果就這樣堂而皇之地搖身一變，成了一家隨時隨地都要「偷看」你照片的公司。

自從這項新政宣布以來，對蘋果不利的情況接連發生，使得CSAM掃描事件不斷升級，目前已經基本達到可以稱之為「醜聞」的程度了。

算法漏洞浮現

首先來個快速前情提要：美國時間8月5日，約翰霍普金斯大學加密學教授Matthew Green，曝光蘋果將推出一項用於檢測CSAM的技術。這項技術名為NeuralHash，基本上就是在用戶手機本地和iCloud/蘋果伺服器雲端，用算法對用戶圖片和一個第三方CSAM數據庫進行哈希值比對。一旦比對成功，蘋果就會屏蔽這張照片，並且不排除後續還會進行報警或通知青少年家長之類的操作。

這項技術存在的一些應用層面的問題，主要有兩點：

1）所謂只打擊CSAM的技術，無法從技術上被限制只針對 CSAM。

2）此類工具已經在技術上被攻破，使得兩張完全不同的照片，可以實現哈希碰撞（也即擁有相同的哈希值）

自那之後，這項CSAM技術又被曝出新的情況，使得醜聞再度升級。

機器學習研究者Asuhariet Ygvar發現，NeuralHash算法早在 iOS 14.3版本，就已經植入到iPhone的操作系統裡了，並且蘋果還故意混淆了其API命名。（而此前蘋果在CSAM技術的官網頁面上宣稱，這項技術是新的，計劃在iOS 15和macOS Monterey正式版推出時才啓動。）

Ygvar通過逆向工程的方法，成功導出了NeuralHash算法並且將其重新打包為Python可執行。這位研究者還在GitHub上提供了導出方法，讓其它數據安全人士可以對NeuralHash進行更深的探索研究。

（這位研究者沒有提供導出後的成品算法，顯然是為了避免遭到蘋果的知識產權訴訟，這一點稍後會詳述。）

算法連結：https://github.com/AsuharietYgvar/AppleNeuralHash2ONNX

Ygvar自己做的早期測試顯示，NeuralHash算法對於圖片尺寸和壓縮調整的抗性較好。但如果圖片進行了切割或者旋轉，NeuralHash就不好用了。這表明，NeuralHash算法投入到CSAM檢測的實際效果可能會打折。

不出意外，很快就有人實現了對於NeuralHash算法的哈希值碰撞。位於波特蘭的安全研究員Cory Cornelius發表了一張比格犬照片和另一張灰色亂碼圖片。這兩張看起來毫無關聯的圖片，通過NeuralHash算法計算出的哈希值，居然是一模一樣的。

緊接著，最早發布了模型導出方法的Ygvar，也復現了這次碰撞：

這條GitHub留言下方，有人進一步指出，Cornelius發現的情況，其實比碰撞更嚴重，已經屬於原像攻擊 (pre-image) 的範疇了。

簡單來說，哈希碰撞就是找到兩張哈希值相同的隨機照片，而原像攻擊，你可以將其理解為「刻意生成的碰撞」，也即先給定一張照片，然後生成另一張和其哈希值相同，但內容不同的照片。

緊接著，更多開發者也用同一張照片實現了更多的碰撞：

甚至，有人在ImageNet（一個備受機器學習人士歡迎，適用範圍超級廣的標注圖片數據庫）裡，都能找到天然的NeuralHash「雙胞胎」。

ImageNet裡的一張釘子照片和一張滑雪板照片，NeuralHash算出的哈希值相同。另一張斧子的照片和線蟲的圖片，也是天然的NeuralHash哈希值「雙胞胎」。

對NeuralHash算法實現原像攻擊，以及天然哈希值雙胞胎的存在，進一步表明：蘋果打算大規模推廣的這個CSAM辨識算法，存在遠比人們想象更嚴重的，有可能被濫用的缺陷。

以下是一種可能性：

你在網上跟某人結仇，他想要報復你。於是他去找了一張CSAM照片，然後生成了幾張看起來人畜無害，但是跟原始照片哈希值相同的圖片，發了過來。你的手機將它們辨識成了CSAM，你被舉報了，警察上門了，那人得逞了。

沒錯，我們完全不需要「設身處地」，把自己當作一個可能傳播色情內容的人。每一個普通人都完全有可能成為技術濫用或是錯誤使用的受害者。如果今天被濫用的是NeuralHash，而對象碰巧是你，那你的名譽將可能變得不堪一擊。

研究者Brad Dwyer表示，儘管上述漏洞存在，目前的早期測試似乎表明，哈希碰撞的發生率和蘋果宣稱的誤報率在相似水平。

但是，Dwyer也強調，蘋果目前在全球擁有超過15億用戶。這意味著NeuralHash一旦出現誤報，會對很大數量的用戶造成負面影響。

瞞天過海、封口威脅

Epic Games和蘋果的訴訟，以及這兩家公司因為「蘋果稅」、應用程式商店政策等問題而結下的樑子，其實是Epic Games挑起的針對蘋果的一場注定曠日持久的反壟斷戰爭，話題也是完全「不設限」。所以在證據採集的階段，Epic Games這邊的律師也蒐集了大量跟案件原本話題有關或無關的資料，其中有很多都是蘋果內部的高度機密資料。

也是在昨天，這樁訴訟再次曝出一條和蘋果CSAM掃描醜聞有關的猛料：

蘋果反詐欺技術部門「FEAR」（Fraud Engineering Algorithms and Risk）的老大Eric Friedman在2020年和同事的一段iMessage聊天當中是這樣說：「我們（蘋果）是全世界最大的兒童色情內容分發平台。」

這當然是一句帶有諷刺調侃意味的發言。Friedman實際表達的是，由於蘋果的隱私安全設計，更多不法分子選擇蘋果通訊產品傳播這些內容。

從表面上來看，這句話似乎是這位工作內容包括打擊兒童色情內容的蘋果高管，在用一種苦澀諷刺的方式，來證明蘋果為什麼要做這件事。

但是結合今天關於CSAM已經討論的情況，不禁令人感到細思極恐，蘋果又是怎麼知道自己平台上有如此多的兒童色情內容，以至於這位高管可以在2020年就下如此斷言呢？難道蘋果在此之前已經在掃描用戶的設備和iCloud帳戶了嗎？

一些人開始猜測，這家公司早就在私下掃描了。

在這條證據通過訴訟公開之後，蘋果發言人回應9to5Mac記者質詢時表示：「我們從2019年就已經開始掃描用戶的iCloud帳戶了。」

（這個時間，比剛才提到包含了NeuralHash算法的iOS 14.3版本的發布時間，又早了整整一年。）

具體來說，蘋果掃描的是用戶的iCloud Mail，也即用戶註冊iCloud帳戶時得到的那個@iCloud.com後綴的登錄電子郵箱。

同時蘋果還表示，也在對一些「其它數據」進行同樣的掃描，但拒絕透露具體是哪些數據。該公司宣稱，從未掃描過用戶的 iCloud Photos（雲端像片儲存，iOS 默認開啓的功能）。

更令人費解的是，蘋果號稱將用戶數據隱私至於無上地位，時不時也會用這套說辭去攻擊貶低其它競爭對手（比如 Facebook），卻從未以足夠清晰的方式，向用戶告知過它也在掃描用戶隱私數據的情況。

它號稱珍惜用戶的忠誠，所以重視用戶的數據隱私，但現在我們看的越來越清楚，「保護用戶隱私」更像是它採用的一種宣傳口徑。

蘋果當然想要瞞天過海。但當一切再也瞞不住了的時候，它也會不惜通過各種手段去封住別人的口，阻撓第三方揭露它的問題。這一點，沒有任何人比Corellium感受的更加深刻。

簡單來說，常規渠道銷售的iPhone有一套非常複雜的用戶協議。如果安全研究人士如果要深度分析破解它（且未獲得蘋果的專門許可），這樣的行為就會違反協議。而Corellium這家公司提供一種「虛擬化ARM架構設備」的服務，包括iOS和Android設備，讓研究人士可以在電腦上對ARM架構的系統和軟體安全性進行研究，而無需購買實體的手機。

於是在2019年，蘋果以違反數字千年版權法為由起訴了 Corellium。一開始外界擔心，考慮到蘋果強大的法務力量，這個案子的走向最終可能會對安全產業不利。好在去年12月，主審案子的法官下達了一個初步裁決，確定Corellium的商業行為並不構成侵犯版權。

今年8月10日，原定開庭日期的一週前，蘋果和Corellium突然達成了庭外和解。

這次和解還有一個更加微妙的細節：它發生在蘋果正式宣布CSAM掃描，並且引發科技產業史無前例般巨大爭議的幾天之後。

很明顯，蘋果不希望在這個尷尬的時間點上，這樁懸而未決且對自己不利的案子，被產業人士和公眾當作它跟安全產業作對的證據。畢竟，在蘋果官網CSAM的介紹頁面上也有提到，蘋果也在和第三方安全專家就NeuralHash的有效性和安全性展開合作。蘋果軟體SVP Craig Federighi接受採訪時也表示，歡迎安全專家對CSAM/NeuralHash進行檢驗。

誰曾想到，這邊剛跟蘋果和解，幾天後，Corellium就又「欠招」了。

8月17日，Corellium四週年的這一天，該公司發起了一個「開放安全計劃」，招募安全研究人員，向最優秀的三組申請者提供每組5000美元撥款，以及長達一年的Corellium技術工具免費使用權限。