DeepMind技術加持,谷歌用AI改善Duo通話品質
陳伊莉 / 何渝婷編譯
2020-04-08 15:59

(示意圖/取自pixabay)

隨著4G、5G通訊技術發展,網路通話越來越盛行。但是網路不穩定是常態,所以通話中我們時不時可能會蹦出一句:「你能再重複一遍嗎?剛剛網路不太好。」

為了提高通話品質,谷歌近期在視訊聊天應用軟體Duo中,使用了一種新技術WaveNetEQ,在出現音訊消失的情況時,該技術會判斷丟失的音頻數據可能是什麼,並替換掉它。其背後的技術支持,來自谷歌聲名在外的DeepMind團隊。

一個完整的線上呼叫,數據經常會被分成多個小塊,每小塊就是一個數據包packet。然而,這些「數據包」從發送方傳輸到接收方的過程中,通常會以錯誤的順序到達,從而產生抖動、丟失等問題,造成音訊空白。

谷歌給出一份資料顯示, Duo 99%的通話都有數據包丟失、過度抖動或網路延遲情況。20%的通話丟失了超過3%的音訊,10%的通話丟失率超過8%,也就是說每次通話都有很多音訊需要替換。

谷歌表示,這些數據包丟失隱藏 (PLC) 過程,可能很難更好地填補60毫秒或更長時間的空白。過去常用算法是NetEQ ,這是webRTC中音訊技術方面的兩大核心技術之一(另一核心技術是音訊的前後處理,包括AEC、ANS、AGC等)。webRTC是谷歌收購GIPS再開源的,是目前影響力極大的即時音訊解決方案,但用它處理丟失的音訊,大多情況下,聽起來像機器人或機械重複。

谷歌就用了大量的語音數據,訓練出了基於DeepMind  WaveRNN技術的WaveNetEQ模型。訓練數據集來自100多名、48種不同語言的志願者,也就是說它可以自動填補48種語言的丟包情況。

WaveNetEQ是一種用於語音合成的遞歸神經網路模型,由兩部分組成,即自迴歸網路(autoregressive network)和調節網路(conditioning network)。

谷歌用WaveNetEQ取代了原來的NetEQ PLC組件,相對於NetEQ ,它在聲音質感方面無疑有提升,而且WaveNetEQ模型跑得足夠快,可以在手機上運行,如此也可以規避用戶可能擔心的數據隱私問題。谷歌稱所有的處理都是在設備上進行,因為Duo的通話默認情況下,就是端到端加密。一旦通話的真實音頻恢復,將無縫地切換到現實對話。

不過,WaveNetEQ替換的內容和時長有限制。目前是支持在120毫秒以內的空白,之後會逐漸消失並歸零;WaveNetEQ不是生成完整的單詞,而是簡單的音節。

目前WaveNetEQ已經應用到Pixel 4手機上的Duo APP中,谷歌表示,它正在將其推廣到其他安卓手機上。

本文為雷鋒網授權刊登,原文標題為「DeepMind技術加持,谷歌用AI改善 Duo 通話丟包