化身頂級即時翻譯高手,Meta宣布開源最先進通用語言翻譯大模型Seamless
Kyle / 何渝婷編譯
2023-12-05 09:00

(取自Meta臉書粉專)

Meta 研究人員日前宣布,他們開發了一套名為「無縫溝通(Seamless Communication)」的新人工智慧模型,旨在實現更自然、更真實的跨語言交流,本質上使通用語音翻譯器的概念成為現實;同時,Meta AI 還發布了相關的研究論文和數據。

被稱為 Seamless 主要模型主要涵蓋了三個子模型:SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2。Seamless 將所有的功能合併到一個統一系統中。 

根據研究論文,Seamless 是「第一個可以即時解鎖表達性跨語言交流的公開系統」。

研究論文:https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

Hugging Face:https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724

Github:https://github.com/facebookresearch/seamless_communication

Seamless 如何作為通用即時翻譯器工作

Seamless 翻譯器代表了使用人工智慧進行部落格交流的新領域,它結合了三個複雜的神經網路模型,可實現 100 多種口語和書面語言之間的即時翻譯,同時保留說話者聲音的聲音風格、情感和韻律。

SeamlessExpressive 專注於在語言之間翻譯時保留說話者聲音的聲音風格和情感細微差別,正如論文中所述,「翻譯應該捕捉人類表達的細微差別,雖然現有的翻譯工具能夠熟練地捕獲對話中的內容,但它們通常依賴於單調的機器人文本轉語音系統來進行輸出。」

為了在不同語言中保留說話者的聲音風格,研究人員將表現力編碼器納入 SeamlessM4T v2 基礎模型中,此過程確保單元生成由預期的語速和節奏引導。 

此外,用以源語音為條件的富有表現力的單元到語音生成器替換 SeamlessM4T v2 中的 HiFi-GAN 單元聲碼器,可以無縫傳輸音調、情感表達和聲音風格。

SeamlessStreaming 可實現近乎即時的翻譯,延遲僅為約兩秒,研究人員表示,這是「第一個大規模多語言模型」,可以在近 100 種口頭和書面語言中提供如此快的翻譯速度。

SeamlessStreaming 能夠智慧地決定何時有足夠的上下文來輸出下一個目標文本或語音片段,它通過學習的讀/寫策略來實現這一點,該策略根據部分音訊輸入確定是否應該「寫入」並生成輸出或「讀取」並繼續等待更多輸入。 

該模型自動適應不同的語言結構,從而在許多不同的語言對上實現更強的性能。

第三個模型,SeamlessM4T v2,是其他兩個模型的基礎,它是去年發佈的原始SeamlessM4T模型的升級版本,該論文稱,這個新架構「提高了文本和語音輸出之間的一致性」。

升級後的 SeamlessM4T v2 具有非自回歸文本到單元解碼器,w2v-BERT 2.0 編碼器接受了 450 萬小時的語音數據訓練,而之前的版本則接受了 100 萬小時的訓練。 

此外,SeamlessM4T v2 還補充了來自 SeamlessAlign 的針對低資源語言的更多數據。

SeamlessM4T v2 使用自動指標(BLEU、ASR-BLEU、BLASER 2 等)對所有任務和語言進行了全面評估,其性能顯著優於以前的最先進模型,它還測試了穩健性、偏差和幻覺毒性。

研究人員寫道:「總而言之,Seamless 讓我們對將通用語音翻譯器從科幻小說概念轉變為現實世界技術所需的技術基礎有了關鍵的瞭解。」

改變全球溝通的潛力

這些模型的功能可以實現新的基於語音的通訊體驗,從使用智慧眼鏡的即時多語言對話到自動配音的影片和Podcast,研究人員表示,它還可以幫助打破移民和其他溝通困難的人的語言障礙。

該論文指出:「通過公開發表我們的工作,我們希望研究人員和開發人員能夠通過建構旨在在日益互聯和相互依賴的世界中架起多語言聯繫的技術,來擴大我們貢獻的影響。」

然而,研究人員承認,該技術也可能被濫用於語音網路釣魚詐騙、深度造假和其他有害應用,為了促進模型的安全和負責任的使用,他們實施了多項措施,包括音訊浮水印和減少幻覺有毒輸出的新技術。

Meta堅持開源道路,已在 Hugging Face 上公開發表

這幾個 Seamless Communication 模型已在 Hugging Face 和 Github 上公開發表,該集合包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及隨附的元數據。

通過免費提供這些最先進的自然語言處理模型,Meta 希望讓研究人員和開發人員能夠在這項工作的基礎上繼續發展並擴展這項工作,以幫助跨語言和跨文化的人們建立連結。

在正在發生的這場激烈的生成式 AI 革命中,Meta 一直致力將自己的大模型研究成果開源,包括其頂級大模型 Llama,Llama2等等。這次的開源再次強調了 Meta 在發展 AI 過程中的態度,為研究社群提供了寶貴的新資源。

研究人員總結道:「總體來說,Seamless 可能產生的多維體驗可能會導致機器輔助跨語言交流的實現方式發生巨大變化。」

本文為AI新智界授權刊登,原文標題為「化身頂級實時翻譯高手,Meta 宣佈開源最先進通用語言翻譯大模型 Seamless