(取自DeepMind X)
根據《 VentureBeat 》報導,Google DeepMind 披露了其人工智慧研究的一項重大進展,提出了一個新的自我迴歸模型,旨在提高對長影音輸入的理解能力。
這個被命名為「Mirasol3B」的新模型展示了一種突破性的多模態學習方法,能以更綜合、更高效的方式處理音訊、影片和文本數據。
Google研究院的軟體工程師 Isaac Noble 和Google DeepMind 的研究科學家 Anelia Angelova 表示,建構多模態模型的挑戰在於模態的異質性。
他們解釋說:「有些模態可能在時間上很同步(如音訊、影片),但與文本不一致。」「此外,影片和音訊訊號的數據量比文本大得多,因此在多模態模型中將它們結合在一起時,影片和音訊往往無法被完全利用,需要進行不成比例的壓縮,對於較長的影音輸入而言,這一問題更加嚴重。」
針對這種複雜性,Google 的 Mirasol3 B 模型將多模態建模分解為單獨的重點自我迴歸模型,根據模態的特性處理輸入。
本文為AI新智界授權刊登,原文標題為「谷歌 DeepMind 推出 Mirasol3B 模型,旨在提高對長視頻輸入的理解能力」