Meta推出AI音訊模型Audiobox：支持語音及文字同時輸入、可生成多層次聲音

（示意圖/取自pixabay）

根據《 IT 之家》 12 月 4 日報導，Meta 日前推出了一款 AI 聲音生成模型 Audiobox，能夠同時接收語音及文字輸入，用戶可同時使用語音及文字描述，讓這款模型生成所需的音訊。

據悉，這款模型基於 Meta 今年 6 月推出的 Voicebox AI 模型，Audiobox 能生成各種環境音、自然對話語音，並整合了音訊生成和編輯能力，以便於用戶自由生成自己所需的音訊。

Meta 介紹指出，生成高品質音訊需要有大量音訊庫及深厚的領域知識，但大眾難以獲得這些資源，而該公司推出這個模型旨在降低聲音生成門檻，讓任何人都更容易製作影片、遊戲等應用場景的音效。

Meta 測試生成帶有雷暴聲的下雨音訊，並輸入一系列提示句進行演示，例如「流水聲伴隨鳥鳴」、「以高音調快節奏說話的年輕女性」等；同時測試了同時輸入人聲及文字提示，以生成帶有情緒（「哀痛而緩慢」）並擁有背景音（身處教堂）的語音。