亞馬遜人工智慧團隊,開發出有史以來最大的文本轉語音模型BASE TTS
品玩 / 何渝婷編譯
2024-02-19 09:35

亞馬遜人工智慧研究團隊日前在 arXiv 上發表論文,推出了一個據稱是史上最大的文本轉語音模型 BASE TTS,並詳細描述了模型的開發和訓練過程。

該模型擁有最多的參數,並使用了最大的訓練數據集。

這個名為「可擴展流式文本轉語音模型」(BASE TTS)的新模型擁有 9.8 億個參數,並使用 10 萬小時的錄音(來自公共網站)進行訓練,其中大部分為英語語音。

研究人員還向模型提供了其他語言的單詞和短句範例,使其能夠正確發音一些常見的表達,例如「au contraire」 和 「adios, amigo」。

亞馬遜團隊還測試了使用較小數據集的模型,希望能從中發現人工智慧領域所說的「湧現能力」,這種能力是指人工智慧應用,無論是大型語言模型還是文本轉語音模型,突然突破到更高智慧水準的現象。他們發現,對於文本轉語音應用而言,這種飛躍發生在參數量達到 1.5 億的中型數據集上。

研究人員還指出,這種飛躍涉及一系列語言屬性,例如使用複合名詞、表達情感、使用外語詞、應用語音學和標點符號以及正確強調句子中的關鍵詞等能力。

研究團隊表示,出於對潛在濫用風險的擔憂,BASE TTS 將不會向公眾開放,他們計劃將其作為學習應用,並期望將學到的知識應用於改善文本轉語音應用的整體音質。

本文為品玩授權刊登,原文標題為「亞馬遜人工智能團隊開發出有史以來最大的文本轉語音模型 BASE TTS