(取自NVIDIA臉書粉專)
根據《站長之家》 1 月 8 日報導,開源對話 AI 工具包 NVIDIA NeMo 宣布推出 Parakeet ASR 模型系列,這是一系列最先進的自動語音辨識(ASR)模型,能夠以出色的準確性轉錄英語口語。
NVIDIA宣布推出了四個 Parakeet 模型,這些模型基於 RNN Transducer/Connectionist Temporal Classification 解碼器,並且具有 0.6-1.1 億參數。
它們能夠應對各種音訊環境,並且在僅使用了 64000 小時的數據集進行訓練後,在基準數據集上實現了出色的詞錯誤率(WER)表現,優於以往的模型。
根據開發人員的說法,這些模型對音樂和靜音等非語音片段具有穩健性,並且在基準測試中優於 OpenAI 的 Whisper v3,它們還通過預先訓練的控制點提供用戶友好的集成到項目中。
本文為AI新智界授權刊登,原文標題為「英偉達推出 AI 語音識別模型 Parakeet,號稱優於 Whisper」