DeepMind技術加持，谷歌用AI改善Duo通話品質

（示意圖/取自pixabay）

隨著4G、5G通訊技術發展，網路通話越來越盛行。但是網路不穩定是常態，所以通話中我們時不時可能會蹦出一句：「你能再重複一遍嗎？剛剛網路不太好。」

為了提高通話品質，谷歌近期在視訊聊天應用軟體Duo中，使用了一種新技術WaveNetEQ，在出現音訊消失的情況時，該技術會判斷丟失的音頻數據可能是什麼，並替換掉它。其背後的技術支持，來自谷歌聲名在外的DeepMind團隊。

一個完整的線上呼叫，數據經常會被分成多個小塊，每小塊就是一個數據包packet。然而，這些「數據包」從發送方傳輸到接收方的過程中，通常會以錯誤的順序到達，從而產生抖動、丟失等問題，造成音訊空白。

谷歌給出一份資料顯示， Duo 99%的通話都有數據包丟失、過度抖動或網路延遲情況。20%的通話丟失了超過3%的音訊，10%的通話丟失率超過8%，也就是說每次通話都有很多音訊需要替換。

谷歌表示，這些數據包丟失隱藏 (PLC) 過程，可能很難更好地填補60毫秒或更長時間的空白。過去常用算法是NetEQ ，這是webRTC中音訊技術方面的兩大核心技術之一（另一核心技術是音訊的前後處理，包括AEC、ANS、AGC等）。webRTC是谷歌收購GIPS再開源的，是目前影響力極大的即時音訊解決方案，但用它處理丟失的音訊，大多情況下，聽起來像機器人或機械重複。

谷歌就用了大量的語音數據，訓練出了基於DeepMind WaveRNN技術的WaveNetEQ模型。訓練數據集來自100多名、48種不同語言的志願者，也就是說它可以自動填補48種語言的丟包情況。

WaveNetEQ是一種用於語音合成的遞歸神經網路模型，由兩部分組成，即自迴歸網路（autoregressive network）和調節網路（conditioning network）。

谷歌用WaveNetEQ取代了原來的NetEQ PLC組件，相對於NetEQ ，它在聲音質感方面無疑有提升，而且WaveNetEQ模型跑得足夠快，可以在手機上運行，如此也可以規避用戶可能擔心的數據隱私問題。谷歌稱所有的處理都是在設備上進行，因為Duo的通話默認情況下，就是端到端加密。一旦通話的真實音頻恢復，將無縫地切換到現實對話。

不過，WaveNetEQ替換的內容和時長有限制。目前是支持在120毫秒以內的空白，之後會逐漸消失並歸零；WaveNetEQ不是生成完整的單詞，而是簡單的音節。

目前WaveNetEQ已經應用到Pixel 4手機上的Duo APP中，谷歌表示，它正在將其推廣到其他安卓手機上。

本文為雷鋒網授權刊登，原文標題為「DeepMind技術加持，谷歌用AI改善 Duo 通話丟包」