Meta 開源可辨識4000種語言的MMS大模型，即時語音文本轉換

（取自Meta臉書粉專）

日新月異的大模型產業每天都在帶給人們新的驚喜，而這一次的驚喜，來自 Facebook 的母公司 Meta。

不管是元宇宙還是社群媒體，Meta 一直在想辦法幫助人們建立更多的交流機會，而到了大模型時代，Meta 展現出了更大的野心，他們近期發布了全新的開源語言模型Massively Multilingual Speech，簡稱 MMS。

Meta 表示，這種模型可以辨識超過4000種口語，還支援在1100多種語言之間進行文本和語音轉換。

從演示影片來看，MMS 可以根據用戶的語言來生成文本，在人們影片對話時直接在旁邊即時翻譯，有了它的幫助，使用不同語言的人們在日後的交流中將會變得更加輕鬆。

除了讓交流變得更加順利，Meta 還希望借助這款大模型產品保存下那些即將消失的語言。

澳洲國立大學的 Lindell Bromham 曾在論文中表示，到本世紀末，1500種語言可能會完全停止使用，但通過 MMS，這些語言有機會被保留下來供人們研究和學習。

語音辨識功能一直是一個較為繁瑣的機器學習過程，這需要大量的標記數據，要對模型進行數千個小時的音頻訓練。

因為工作繁瑣，大部分模型和數據集只收錄了一些常用語言，最大的也不過涵蓋上百種語言。

為了盡可能多的獲得語音數據，Meta 選擇從《聖經》入手。

他們創建了一個《聖經：新約》的閱讀數據集，其中收錄了1107種語言，平均每種語言有32小時的數據，通過新的數據集以及 Meta 自研的模型 wave2vec 2.0，MMS可用到的語言數量大幅提升。

Meta 還表示，考慮到其他宗教讀物的未標記數據，MMS 將可以提供超過4000種語言。

研究人員使用一個1B參數的wav2vec 2.0模型，對超過1100種語言進行多語言語音辨識模型的訓練，在經過和OpenAI的Whisper進行同類比較後發現，在MMS數據上訓練的模型有將近一半的單詞錯誤率，但MMS涵蓋的語言是Whisper的11倍，這說明MMS 有著較為不錯的可靠性。

同時，Meta還是用了連接主義時間分類（CTC）方法對模型舉行約束，以防止MMS推出的內容向宗教內容偏移。

目前 MMS 還處於研發的狀態，但Meta 已經開源該模型和代碼，讓更多的開發人員參與其中。

而隨著更多開發人員的加入，相信我們距離使用不同語言平等交流的那一天，馬上就要到來了！