Meta推出V-JEPA模型,利用AI高效補充影片受遮蔽部分
品玩 / 何渝婷編譯
2024-04-10 11:26

(示意圖/取自pixabay)

根據 Meta 官網顯示,Meta 推出了一款名為「V-JEPA」的影片預測模型,Meta 首席 AI 科學家 Yann LeCun 在 2022 年就推出了 JEPA(Joint Embedding Predictive Architectures)模型架構。

據介紹,相關 JEPA 架構及 I-JEPA / V-JPA 模型主打「預測能力」,號稱可以以「人類理解」的方式,利用抽象性高效預測生成圖片 / 影片中被遮蔽的部分。

研究人員使用一系列經過遮蔽處理的特定影片訓練 I-JEPA / V-JEPA 模型,要求模型利用「抽象方式」填充影片中缺失的內容,從而讓模型在填充間學習場景,進一步預測未來的事件或動作,進而達到對世界更深層次的理解。

研究人員表示,這種訓練方法能夠讓模型專注於影片的高層次概念,而「不會鑽牛角尖處理下游任務不重要的細節」,研究人員舉例「人類觀看內含樹木的影片時,不會特別關心樹葉的運動方式」,因此採用這種抽象概念的模型,相對於業界競品效率更佳。

研究人員同時提到,V-JEPA 採用一種名為「Frozen Evaluations」的設計結構,即「模型在預訓練之後,核心部分不會再改變」,因此只需要在模型之上添加小型專門層即可適應新任務,具有更高普適性。

本文為品玩授權刊登,原文標題為「Meta 推出 V-JEPA 模型,利用 AI 高效補充視頻受遮蔽部分