亞馬遜用AI語音技術，為企業提供品牌服務

（取自Amazon.com粉絲專頁）

品牌就是一個虛構的人，它和人一樣也擁有許多獨特的特徵，其中就包括聲音。

品牌的聲音可幫助用戶通過聽覺，立刻辨識出品牌的個性。今日，亞馬遜的雲端服務Amazon Polly，推出了「品牌之聲」業務，這是一項完全自動化的服務。該服務可以將文字內容轉換為逼真的語音，為客戶提供特別訂製的聲音服務。

正如亞馬遜的AI語音負責人Rafal Kuklinski，和高階產品經理Ankit Dhawan，在一篇部落格文章中解釋的那樣，「品牌之聲」允許公司，透過將獨特的聲音特徵融入到他們的產品和服務中，來區分其他品牌。

「每一家公司都可以擁用自己獨特的聲音品牌。」他們寫道。

亞馬遜與KFC合作，為後者的品牌標誌「肯德基老爺爺」植入美國南部的英語口音，並在亞馬遜Alexa App中上線。另外，它還為澳洲國民銀行（National Australia Bank）設計了澳洲英語語音，該銀行將聯繫中心，遷移到亞馬遜全渠道雲端聯繫中心產品Amazon Connect中。

去年年底，亞馬遜在一份研究論文中，詳細介紹了其運用AI生成語音方面的工作（「數據簡化效應對文本轉化成語音的影響」），研究人員在其中描述了一種系統，該系統僅需要幾個小時的訓練，即可學會一種新的語言風格。而同樣的目標，配音演員可能需要數十小時。

亞馬遜的人工智慧模型由兩個部分組成。第一種是神經網路，它可以將音素序列（phone sequence）轉換為聲譜圖序列，聲音隨時間的變化，使得頻譜可以用肉眼清晰的觀察到它的變化。第二種是聲碼器，它將聲譜圖轉換成連續的音頻訊號。

這種人工智慧模型的訓練方法，將大量中性化風格的語音數據與所需風格的數據，以及一種能夠區分語音的AI系統結合在一起。亞馬遜已經在內部使用它，來為Alexa生成新的聲音。

這種技術具有很好的商業價值。品牌聲音的任務，通常是為互動語音應答系統錄製電話樹，或為企業培訓影片錄製電子學習腳本。合成器可以通過減少輔助錄音和接聽來提高演員的工作效率，同時使他們騰出時間從事創造性工作。

憑藉「品牌之聲」和其他文本轉化為語音的服務，亞馬遜與谷歌在這個領域脫穎而出。谷歌最近推出了31個人工智慧合成的WaveNet語音，和24個新的雲端文本到語音服務標準語音。除此之外，亞馬遜還有另一個值得注意的競爭對手微軟，微軟通過Azure語音服務API，提供了三種人工智慧生成的預覽語音和75種標準語音。

亞馬遜的「品牌之聲」，還與Voicery等多家新創公司的產品展開競爭，後者提供訂製的數位聲音，聽起來令人印象深刻，很像人類的聲音。文本轉化為語音的技術新創公司iSpeech，也擁有類似的語音工具，Modulate、Respeecher、Resemble AI、Descript和印度邦加羅爾的DeepSync也是如此。

本文為雷鋒網授權刊登，原文標題為「亞馬遜用AI語音技術，為企業提供品牌服務」