亞馬遜人工智慧團隊，開發出有史以來最大的文本轉語音模型BASE TTS

亞馬遜人工智慧研究團隊日前在 arXiv 上發表論文，推出了一個據稱是史上最大的文本轉語音模型 BASE TTS，並詳細描述了模型的開發和訓練過程。

該模型擁有最多的參數，並使用了最大的訓練數據集。

這個名為「可擴展流式文本轉語音模型」（BASE TTS）的新模型擁有 9.8 億個參數，並使用 10 萬小時的錄音（來自公共網站）進行訓練，其中大部分為英語語音。

研究人員還向模型提供了其他語言的單詞和短句範例，使其能夠正確發音一些常見的表達，例如「au contraire」和「adios, amigo」。

亞馬遜團隊還測試了使用較小數據集的模型，希望能從中發現人工智慧領域所說的「湧現能力」，這種能力是指人工智慧應用，無論是大型語言模型還是文本轉語音模型，突然突破到更高智慧水準的現象。他們發現，對於文本轉語音應用而言，這種飛躍發生在參數量達到 1.5 億的中型數據集上。

研究人員還指出，這種飛躍涉及一系列語言屬性，例如使用複合名詞、表達情感、使用外語詞、應用語音學和標點符號以及正確強調句子中的關鍵詞等能力。

研究團隊表示，出於對潛在濫用風險的擔憂，BASE TTS 將不會向公眾開放，他們計劃將其作為學習應用，並期望將學到的知識應用於改善文本轉語音應用的整體音質。