NVIDIA發表大模型NVILA,專注於優化準確性和效率
品玩 / 何渝婷編譯
2024-12-10 10:29

根據《 analyticsindiamag 》報導,NVIDIA 近日發佈了名為 NVILA 的全新開放式視覺語言模型系列,該模型專注於優化準確性和效率。

據悉,該模型的訓練成本降低了 4.5 倍,微調內存降低了 3.4 倍。此外,它還將預填充和解碼的延遲降低了近 2 倍。

這些數據都是與 LLaVa OneVision 模型相比得出的,LLaVa OneVision 模型是另一個結合了 Qwen 2 語言模型的大型視覺模型。

從基準測試結果來看,NVILA 在影片基準測試中的表現優於 GPT 4o Mini,與 GPT 4o、Sonnet 3.5 和 Gemini 1.5 Pro 相比,性能更具競爭力。

儘管如此,NVILA 的性能仍優於大多數開放式型號,與 Llama 的 3.2 型號相比,它也略勝一籌。

本文為品玩授權刊登,原文標題為「英偉達發佈大模型NVILA,專注於優化準確性和效率