NVIDIA推全新視覺語音模型NVEagle,可以看圖聊天
品玩 / 何渝婷編譯
2024-09-02 14:06

根據NVIDIA官方消息,NVIDIA聯合 Georgia Tech、UMD 和 HKPU 的研究團隊推出了全新的視覺語言模型NVEagle。

據悉,NVEagle 能夠理解複雜的現實場景,通過視覺輸入進行更好的解讀和回應,它的設計核心在於將圖像轉化為視覺標記,再與文本嵌入相結合,進而提升了對視覺資訊的理解。

NVEagle包括了三個版本:Eagle-X5-7B、Eagle-X5-13B 以及 Eagle-X5-13B-Chat;其中,7B 和 13B 版本主要用於一般的視覺語言任務,而13B-Chat 版本則專門針對對話式 AI 進行了微調,能夠更好地進行基於視覺輸入的互動。

NVEagle 的一個亮點在於採用了混合專家(MoE)機制,能夠根據不同任務動態選擇最合適的視覺編碼器,這極大提升了對複雜視覺信息的處理能力,該模型已在 Hugging Face 上發表,方便研究人員和開發者使用。

本文為品玩授權刊登,原文標題為「英偉達推全新視覺語音模型NVEagle,可以看圖聊天