亞馬遜用AI語音技術,為企業提供品牌服務
Venturebeat-KYLE WIGGERS / 周舟 / 何渝婷編譯
2020-02-05 11:00

(取自Amazon.com粉絲專頁)

品牌就是一個虛構的人,它和人一樣也擁有許多獨特的特徵,其中就包括聲音。

品牌的聲音可幫助用戶通過聽覺,立刻辨識出品牌的個性。今日,亞馬遜的雲端服務Amazon Polly,推出了「品牌之聲」業務,這是一項完全自動化的服務。該服務可以將文字內容轉換為逼真的語音,為客戶提供特別訂製的聲音服務。

正如亞馬遜的AI語音負責人Rafal Kuklinski,和高階產品經理Ankit Dhawan,在一篇部落格文章中解釋的那樣,「品牌之聲」允許公司,透過將獨特的聲音特徵融入到他們的產品和服務中,來區分其他品牌。

「每一家公司都可以擁用自己獨特的聲音品牌。」他們寫道。

亞馬遜與KFC合作,為後者的品牌標誌「肯德基老爺爺」植入美國南部的英語口音,並在亞馬遜Alexa App中上線。另外,它還為澳洲國民銀行(National Australia Bank)設計了澳洲英語語音,該銀行將聯繫中心,遷移到亞馬遜全渠道雲端聯繫中心產品Amazon Connect中。

去年年底,亞馬遜在一份研究論文中,詳細介紹了其運用AI生成語音方面的工作(「數據簡化效應對文本轉化成語音的影響」),研究人員在其中描述了一種系統,該系統僅需要幾個小時的訓練,即可學會一種新的語言風格。而同樣的目標,配音演員可能需要數十小時。

亞馬遜的人工智慧模型由兩個部分組成。第一種是神經網路,它可以將音素序列(phone sequence)轉換為聲譜圖序列,聲音隨時間的變化,使得頻譜可以用肉眼清晰的觀察到它的變化。第二種是聲碼器,它將聲譜圖轉換成連續的音頻訊號。

這種人工智慧模型的訓練方法,將大量中性化風格的語音數據與所需風格的數據,以及一種能夠區分語音的AI系統結合在一起。亞馬遜已經在內部使用它,來為Alexa生成新的聲音。

這種技術具有很好的商業價值。品牌聲音的任務,通常是為互動語音應答系統錄製電話樹,或為企業培訓影片錄製電子學習腳本。合成器可以通過減少輔助錄音和接聽來提高演員的工作效率,同時使他們騰出時間從事創造性工作。

憑藉「品牌之聲」和其他文本轉化為語音的服務,亞馬遜與谷歌在這個領域脫穎而出。谷歌最近推出了31個人工智慧合成的WaveNet語音,和24個新的雲端文本到語音服務標準語音。除此之外,亞馬遜還有另一個值得注意的競爭對手微軟,微軟通過Azure語音服務API,提供了三種人工智慧生成的預覽語音和75種標準語音。

亞馬遜的「品牌之聲」,還與Voicery等多家新創公司的產品展開競爭,後者提供訂製的數位聲音,聽起來令人印象深刻,很像人類的聲音。文本轉化為語音的技術新創公司iSpeech,也擁有類似的語音工具,Modulate、Respeecher、Resemble AI、Descript和印度邦加羅爾的DeepSync也是如此。

本文為雷鋒網授權刊登,原文標題為「亞馬遜用AI語音技術,為企業提供品牌服務