NVIDIA 推出AI語音辨識模型Parakeet，號稱優於Whisper

（取自NVIDIA臉書粉專）

根據《站長之家》 1 月 8 日報導，開源對話 AI 工具包 NVIDIA NeMo 宣布推出 Parakeet ASR 模型系列，這是一系列最先進的自動語音辨識（ASR）模型，能夠以出色的準確性轉錄英語口語。

NVIDIA宣布推出了四個 Parakeet 模型，這些模型基於 RNN Transducer/Connectionist Temporal Classification 解碼器，並且具有 0.6-1.1 億參數。

它們能夠應對各種音訊環境，並且在僅使用了 64000 小時的數據集進行訓練後，在基準數據集上實現了出色的詞錯誤率（WER）表現，優於以往的模型。

根據開發人員的說法，這些模型對音樂和靜音等非語音片段具有穩健性，並且在基準測試中優於 OpenAI 的 Whisper v3，它們還通過預先訓練的控制點提供用戶友好的集成到項目中。