蘋果CSAM醜聞升級:掃描算法存嚴重缺陷,三年前就在「偷窺」且未告知用戶
光譜 / 何渝婷編譯
2021-08-27 15:50

美國時間8月24日,是締造了蘋果公司輝煌傳奇的賈伯斯卸任 CEO,將大權交給庫克十週年的日子。

十年過去了,蘋果的財務表現無比優秀,曾經多年保持著世界上最值錢公司的紀錄。然而在名氣和財氣背後,這幾年的蘋果,風評卻越來越差。就連經常被拿來自我吹捧的隱私,蘋果在這方面的種種表現,都越來越令人難以相信:這居然是蘋果能幹得出來的事?

8月初,一篇文章《蘋果要偷看你手機電腦上的照片了》,內容說的是當時蘋果被業界人士曝出(隨後很快官方承認)的一項爭議性極高的新舉措:對用戶手機上保存的照片,以及通過iMessage發布、上傳到iCloud的圖片進行審核,從而辨識兒童色情和虐待內容 (CSAM),打擊其傳播。

注意,我們在說的可是蘋果,號稱最注重用戶個人隱私的蘋果。而現在,蘋果就這樣堂而皇之地搖身一變,成了一家隨時隨地都要「偷看」你照片的公司。

自從這項新政宣布以來,對蘋果不利的情況接連發生,使得CSAM掃描事件不斷升級,目前已經基本達到可以稱之為「醜聞」的程度了。

算法漏洞浮現

首先來個快速前情提要:美國時間8月5日,約翰霍普金斯大學加密學教授Matthew Green,曝光蘋果將推出一項用於檢測CSAM的技術。這項技術名為NeuralHash,基本上就是在用戶手機本地和iCloud/蘋果伺服器雲端,用算法對用戶圖片和一個第三方CSAM數據庫進行哈希值比對。一旦比對成功,蘋果就會屏蔽這張照片,並且不排除後續還會進行報警或通知青少年家長之類的操作。

這項技術存在的一些應用層面的問題,主要有兩點:

1)所謂只打擊CSAM的技術,無法從技術上被限制只針對 CSAM。

2)此類工具已經在技術上被攻破,使得兩張完全不同的照片,可以實現哈希碰撞(也即擁有相同的哈希值)

自那之後,這項CSAM技術又被曝出新的情況,使得醜聞再度升級。

機器學習研究者Asuhariet Ygvar發現,NeuralHash算法早在 iOS 14.3版本,就已經植入到iPhone的操作系統裡了,並且蘋果還故意混淆了其API命名。(而此前蘋果在CSAM技術的官網頁面上宣稱,這項技術是新的,計劃在iOS 15和macOS Monterey正式版推出時才啓動。)

Ygvar通過逆向工程的方法,成功導出了NeuralHash算法並且將其重新打包為Python可執行。這位研究者還在GitHub上提供了導出方法,讓其它數據安全人士可以對NeuralHash進行更深的探索研究。

(這位研究者沒有提供導出後的成品算法,顯然是為了避免遭到蘋果的知識產權訴訟,這一點稍後會詳述。)

算法連結:https://github.com/AsuharietYgvar/AppleNeuralHash2ONNX

Ygvar自己做的早期測試顯示,NeuralHash算法對於圖片尺寸和壓縮調整的抗性較好。但如果圖片進行了切割或者旋轉,NeuralHash就不好用了。這表明,NeuralHash算法投入到CSAM檢測的實際效果可能會打折。

不出意外,很快就有人實現了對於NeuralHash算法的哈希值碰撞。位於波特蘭的安全研究員Cory Cornelius發表了一張比格犬照片和另一張灰色亂碼圖片。這兩張看起來毫無關聯的圖片,通過NeuralHash算法計算出的哈希值,居然是一模一樣的。

緊接著,最早發布了模型導出方法的Ygvar,也復現了這次碰撞:

這條GitHub留言下方,有人進一步指出,Cornelius發現的情況,其實比碰撞更嚴重,已經屬於原像攻擊 (pre-image) 的範疇了。

簡單來說,哈希碰撞就是找到兩張哈希值相同的隨機照片,而原像攻擊,你可以將其理解為「刻意生成的碰撞」,也即先給定一張照片,然後生成另一張和其哈希值相同,但內容不同的照片。

緊接著,更多開發者也用同一張照片實現了更多的碰撞:

甚至,有人在ImageNet(一個備受機器學習人士歡迎,適用範圍超級廣的標注圖片數據庫)裡,都能找到天然的NeuralHash「雙胞胎」。

ImageNet裡的一張釘子照片和一張滑雪板照片,NeuralHash算出的哈希值相同。另一張斧子的照片和線蟲的圖片,也是天然的NeuralHash哈希值「雙胞胎」。

對NeuralHash算法實現原像攻擊,以及天然哈希值雙胞胎的存在,進一步表明:蘋果打算大規模推廣的這個CSAM辨識算法,存在遠比人們想象更嚴重的,有可能被濫用的缺陷。

以下是一種可能性:

你在網上跟某人結仇,他想要報復你。於是他去找了一張CSAM照片,然後生成了幾張看起來人畜無害,但是跟原始照片哈希值相同的圖片,發了過來。你的手機將它們辨識成了CSAM,你被舉報了,警察上門了,那人得逞了。

沒錯,我們完全不需要「設身處地」,把自己當作一個可能傳播色情內容的人。每一個普通人都完全有可能成為技術濫用或是錯誤使用的受害者。如果今天被濫用的是NeuralHash,而對象碰巧是你,那你的名譽將可能變得不堪一擊。

研究者Brad Dwyer表示,儘管上述漏洞存在,目前的早期測試似乎表明,哈希碰撞的發生率和蘋果宣稱的誤報率在相似水平。

但是,Dwyer也強調,蘋果目前在全球擁有超過15億用戶。這意味著NeuralHash一旦出現誤報,會對很大數量的用戶造成負面影響。

瞞天過海、封口威脅

Epic Games和蘋果的訴訟,以及這兩家公司因為「蘋果稅」、應用程式商店政策等問題而結下的樑子,其實是Epic Games挑起的針對蘋果的一場注定曠日持久的反壟斷戰爭,話題也是完全「不設限」。所以在證據採集的階段,Epic Games這邊的律師也蒐集了大量跟案件原本話題有關或無關的資料,其中有很多都是蘋果內部的高度機密資料。

也是在昨天,這樁訴訟再次曝出一條和蘋果CSAM掃描醜聞有關的猛料:

蘋果反詐欺技術部門「FEAR」(Fraud Engineering Algorithms and Risk)的老大Eric Friedman在2020年和同事的一段iMessage聊天當中是這樣說:「我們(蘋果)是全世界最大的兒童色情內容分發平台。」

這當然是一句帶有諷刺調侃意味的發言。Friedman實際表達的是,由於蘋果的隱私安全設計,更多不法分子選擇蘋果通訊產品傳播這些內容。

從表面上來看,這句話似乎是這位工作內容包括打擊兒童色情內容的蘋果高管,在用一種苦澀諷刺的方式,來證明蘋果為什麼要做這件事。

但是結合今天關於CSAM已經討論的情況,不禁令人感到細思極恐,蘋果又是怎麼知道自己平台上有如此多的兒童色情內容,以至於這位高管可以在2020年就下如此斷言呢?難道蘋果在此之前已經在掃描用戶的設備和iCloud帳戶了嗎?

一些人開始猜測,這家公司早就在私下掃描了。

在這條證據通過訴訟公開之後,蘋果發言人回應9to5Mac記者質詢時表示:「我們從2019年就已經開始掃描用戶的iCloud帳戶了。」

(這個時間,比剛才提到包含了NeuralHash算法的iOS 14.3版本的發布時間,又早了整整一年。)

具體來說,蘋果掃描的是用戶的iCloud Mail,也即用戶註冊iCloud帳戶時得到的那個@iCloud.com後綴的登錄電子郵箱。

同時蘋果還表示,也在對一些「其它數據」進行同樣的掃描,但拒絕透露具體是哪些數據。該公司宣稱,從未掃描過用戶的 iCloud Photos(雲端像片儲存,iOS 默認開啓的功能)。

更令人費解的是,蘋果號稱將用戶數據隱私至於無上地位,時不時也會用這套說辭去攻擊貶低其它競爭對手(比如 Facebook),卻從未以足夠清晰的方式,向用戶告知過它也在掃描用戶隱私數據的情況。

它號稱珍惜用戶的忠誠,所以重視用戶的數據隱私,但現在我們看的越來越清楚,「保護用戶隱私」更像是它採用的一種宣傳口徑。

蘋果當然想要瞞天過海。但當一切再也瞞不住了的時候,它也會不惜通過各種手段去封住別人的口,阻撓第三方揭露它的問題。這一點,沒有任何人比Corellium感受的更加深刻。

簡單來說,常規渠道銷售的iPhone有一套非常複雜的用戶協議。如果安全研究人士如果要深度分析破解它(且未獲得蘋果的專門許可),這樣的行為就會違反協議。而Corellium這家公司提供一種「虛擬化ARM架構設備」的服務,包括iOS和Android設備,讓研究人士可以在電腦上對ARM架構的系統和軟體安全性進行研究,而無需購買實體的手機。

於是在2019年,蘋果以違反數字千年版權法為由起訴了 Corellium。一開始外界擔心,考慮到蘋果強大的法務力量,這個案子的走向最終可能會對安全產業不利。好在去年12月,主審案子的法官下達了一個初步裁決,確定Corellium的商業行為並不構成侵犯版權。

今年8月10日,原定開庭日期的一週前,蘋果和Corellium突然達成了庭外和解。

這次和解還有一個更加微妙的細節:它發生在蘋果正式宣布CSAM掃描,並且引發科技產業史無前例般巨大爭議的幾天之後。

很明顯,蘋果不希望在這個尷尬的時間點上,這樁懸而未決且對自己不利的案子,被產業人士和公眾當作它跟安全產業作對的證據。畢竟,在蘋果官網CSAM的介紹頁面上也有提到,蘋果也在和第三方安全專家就NeuralHash的有效性和安全性展開合作。蘋果軟體SVP Craig Federighi接受採訪時也表示,歡迎安全專家對CSAM/NeuralHash進行檢驗。

誰曾想到,這邊剛跟蘋果和解,幾天後,Corellium就又「欠招」了。

8月17日,Corellium四週年的這一天,該公司發起了一個「開放安全計劃」,招募安全研究人員,向最優秀的三組申請者提供每組5000美元撥款,以及長達一年的Corellium技術工具免費使用權限。

(截圖來源:Corellium網站)

這項計劃的主題是「驗證設備廠商的安全宣傳」。而這個廠商是誰也就不用猜了......

(截圖來源:Corellium網站)

「我們讚賞蘋果公司做出的承諾,允許第三方研究人員對其問責。我們也相信,我們的平台非常適合幫助研究者實現這個目標。」Corellium公司在官網上寫道。

這一舉動再次激怒了蘋果。可能蘋果太憤怒了,以至於它的法務團隊已經不按套路出牌了......

在Corellium宣布這一計劃的第二天,蘋果撕毀了之前達成的和解,就去年12月法院下達的「Coreelium行為不構成侵犯版權」的裁決,重新提交了上訴。

現在你應該能理解,為什麼本文前一小節提到的那個逆向工程了NeuralHash的開發者,只是提供了破解提取方法,沒有把提取出來的算法做成下載連結了。

畢竟,這世界上可能沒有人想要被蘋果告侵犯版權啊!

你認可為了打擊CSAM而推出的此類掃描技術嗎?對於這次蘋果 CSAM/NeuralHash相關事件有什麼看法?

本文為品玩授權刊登,原文標題為「蘋果CSAM醜聞再升級:掃描算法存嚴重缺陷,三年前就在「偷窺」且未告知用戶