NVIDIA發表大模型NVILA，專注於優化準確性和效率

根據《 analyticsindiamag 》報導，NVIDIA 近日發佈了名為 NVILA 的全新開放式視覺語言模型系列，該模型專注於優化準確性和效率。

據悉，該模型的訓練成本降低了 4.5 倍，微調內存降低了 3.4 倍。此外，它還將預填充和解碼的延遲降低了近 2 倍。

這些數據都是與 LLaVa OneVision 模型相比得出的，LLaVa OneVision 模型是另一個結合了 Qwen 2 語言模型的大型視覺模型。

從基準測試結果來看，NVILA 在影片基準測試中的表現優於 GPT 4o Mini，與 GPT 4o、Sonnet 3.5 和 Gemini 1.5 Pro 相比，性能更具競爭力。

儘管如此，NVILA 的性能仍優於大多數開放式型號，與 Llama 的 3.2 型號相比，它也略勝一籌。