Stability AI 今天宣佈,推出Stable Audio Open 開源模型,可以基於使用者輸入的提示文字,生成高品質音訊樣本。
Stable Audio Open 最長可以創造 47 秒的音樂,非常適合鼓點、樂器旋律、環境音和擬聲音效,該開源模型基於 transforms 擴散模型(DiT),在自動編碼器的潛在空間中操作,提高生成音訊的品質和多樣性。
Stable Audio Open 現在可以在 HuggingFace 上試用。
本文為品玩授權刊登,原文標題為「Stable Audio Open 開源 AI 模型發佈」