Meta 開源可辨識4000種語言的MMS大模型,即時語音文本轉換
呂可 / 何渝婷編譯
2023-05-24 16:35

(取自Meta臉書粉專)

日新月異的大模型產業每天都在帶給人們新的驚喜,而這一次的驚喜,來自 Facebook 的母公司 Meta。

不管是元宇宙還是社群媒體,Meta 一直在想辦法幫助人們建立更多的交流機會,而到了大模型時代,Meta 展現出了更大的野心,他們近期發布了全新的開源語言模型Massively Multilingual Speech,簡稱 MMS。

Meta 表示,這種模型可以辨識超過4000種口語,還支援在1100多種語言之間進行文本和語音轉換。

從演示影片來看,MMS 可以根據用戶的語言來生成文本,在人們影片對話時直接在旁邊即時翻譯,有了它的幫助,使用不同語言的人們在日後的交流中將會變得更加輕鬆。

除了讓交流變得更加順利,Meta 還希望借助這款大模型產品保存下那些即將消失的語言。

澳洲國立大學的 Lindell Bromham 曾在論文中表示,到本世紀末,1500種語言可能會完全停止使用,但通過 MMS,這些語言有機會被保留下來供人們研究和學習。

語音辨識功能一直是一個較為繁瑣的機器學習過程,這需要大量的標記數據,要對模型進行數千個小時的音頻訓練。

因為工作繁瑣,大部分模型和數據集只收錄了一些常用語言,最大的也不過涵蓋上百種語言。

為了盡可能多的獲得語音數據,Meta 選擇從《聖經》入手。

他們創建了一個《聖經:新約》的閱讀數據集,其中收錄了1107種語言,平均每種語言有32小時的數據,通過新的數據集以及 Meta 自研的模型 wave2vec 2.0,MMS可用到的語言數量大幅提升。

Meta 還表示,考慮到其他宗教讀物的未標記數據,MMS 將可以提供超過4000種語言。

研究人員使用一個1B參數的wav2vec 2.0模型,對超過1100種語言進行多語言語音辨識模型的訓練,在經過和OpenAI的Whisper進行同類比較後發現,在MMS數據上訓練的模型有將近一半的單詞錯誤率,但MMS涵蓋的語言是Whisper的11倍,這說明MMS 有著較為不錯的可靠性。

同時,Meta還是用了連接主義時間分類(CTC)方法對模型舉行約束,以防止MMS推出的內容向宗教內容偏移。

目前 MMS 還處於研發的狀態,但Meta 已經開源該模型和代碼,讓更多的開發人員參與其中。

而隨著更多開發人員的加入,相信我們距離使用不同語言平等交流的那一天,馬上就要到來了!

本文為品玩授權刊登,原文標題為「Meta 開源可識別4000種語言的MMS大模型,實時語音文本轉換