偽造CEO語音騙走24萬美元！音訊版Deepfake詐騙案正在興起

從圖像、影片到語音，DeepFake正在建構一個虛假的世界。

我們看到，在馬斯克的這段演講影片中，Deepfake的換臉技術幾乎達到了人眼無法區別的地步。

不過，隨著技術的不斷成熟，Deepfake卻帶來隱藏的「虛假」風險。自從2017年，一位網友將美國女星和成人電影女主角做了人臉交換，偽造了一段色情影片後，有關濫用Deepfake製造虛假、不良內容的影片一直充斥於網路。

為了應對Deepfake換臉技術帶來的種種風險，2019 年，Facebook斥鉅資發起「Deepfake檢測挑戰賽」，這項挑戰賽一直延續到現在，其辨識準確率已經達到了82.56%。

不過，令人擔憂的是，有人又將虛假的矛頭指向了Deepfake語音。有報導稱，一家英國能源公司被敲詐了24萬美元，其背後正是利用的音訊版Deepfake技術。

攻擊者假冒公司CEO製造了一段虛假語音，以電子郵件的方式發給公司下屬員工，要求其向指定帳戶完成匯款。員工介紹稱，假冒音訊中的音調、口吻和口音都與公司CEO頗為相似，對他產生了誤導於是轉了賬。其實，諸如此類的詐騙案件已經發生了不止一起。

對此，安全諮詢公司Nisos在分析過偽造音訊後發出警告，Deepfake語音詐騙正在興起，必須提高警惕。

Deepfake語音複製曝光

最近一家科技公司也收到了一份自稱公司CEO的語音郵件，要求「立即提供協助以完成緊急商業交易」。不過，這次員工發現了語音中的異常，詐騙活動沒有成功。

可以聽出這段語音的品質並不是很好，有點機械、不連貫，但員工介紹口音和音調還是基本相似的。

Deepfake語音複製的品質，主要取決於假冒對象的錄音，數量越多、品質越高，偽造的逼真度也就越高。對於公司高層而言，他們在電話會議，YouTube，社交媒體或者TED演講中的錄音很容易獲得，也由此成為了詐騙集團的偽造對象。

隨後，該公司將這段偽造的音訊交給了一家安全諮詢公司Nisos。Nisos使用一款名為Spectrum3d的音頻頻譜圖工具，分析了Deepfake的偽造音訊。

Deepfake音頻頻譜圖

可以看到頻譜圖中的音調幾乎一直處於高峰狀態，這與我們日常講話的高低音轉換顯然有很大差異，另外，研究人員稱，他們在音訊中沒有發現任何噪音的痕跡，顯然說明音訊是透過電腦軟體合成的。

與正常人聲的頻譜圖對比來看，結果更是一目了然。音高頻率，幅度更加自然，同時也能夠檢測數微弱的背景雜音。

正常人聲頻譜圖

由於未獲取足夠的樣本，詐騙集團採用的是何種Deepfake軟體合成技術還不得而知。不過，攻擊者為製造高逼真的詐騙音訊，需要滿足以下幾個條件：

· 捕獲幾乎沒有背景雜音的高品質音訊。

· 在無法通話的場景下，分階段發送音訊進行溝通

· 以留言的方式進行，避免面對面的交談

如何辨識語音詐騙

雖然這次Deepfake偽造音訊存在明顯瑕疵，但只要獲取高品質的語音樣本，其偽造程度還是能夠以假亂真。

另外，Nisos公司表示，音訊的深度偽造不僅與人的語氣有關，還與特定的言語舉止有關。但是這一目標已經能夠實現，比如攻擊者會採用類似於Yandex反向圖片搜尋的語音工具，透過大量樣本的建構和訓練，將原語音轉換為目標語音的模型。

目前音訊詐騙案件已經陸續出現，隨著Deepfake軟體的使用更加容易，音訊合成處理的品質越來越高，此類詐騙案件也會愈加普遍。

不過，Nisos公司強調由於技術的侷限性，此類詐騙事件還是很容易識破的。比如透過電話溝通確認。

Deepfake技術無法實現連貫的語音通話，因此攻擊者通常採用語音郵件的形式與對方溝通。另外，也可以透過詢問一些只有內部了解到的知識來確認對方的身份。此外，攻擊者會盜用公司高層人員的郵件帳號來與下屬員工進行溝通，因此，加強郵件安全防護也是非常必要的。

此外，除了經濟詐騙外，攻擊者還可能透過引導員工登錄不安全網站等行為，對公司的網路或物理資產造成破壞。