Meta推出V-JEPA模型，利用AI高效補充影片受遮蔽部分

（示意圖/取自pixabay）

根據 Meta 官網顯示，Meta 推出了一款名為「V-JEPA」的影片預測模型，Meta 首席 AI 科學家 Yann LeCun 在 2022 年就推出了 JEPA（Joint Embedding Predictive Architectures）模型架構。

據介紹，相關 JEPA 架構及 I-JEPA / V-JPA 模型主打「預測能力」，號稱可以以「人類理解」的方式，利用抽象性高效預測生成圖片 / 影片中被遮蔽的部分。

研究人員使用一系列經過遮蔽處理的特定影片訓練 I-JEPA / V-JEPA 模型，要求模型利用「抽象方式」填充影片中缺失的內容，從而讓模型在填充間學習場景，進一步預測未來的事件或動作，進而達到對世界更深層次的理解。

研究人員表示，這種訓練方法能夠讓模型專注於影片的高層次概念，而「不會鑽牛角尖處理下游任務不重要的細節」，研究人員舉例「人類觀看內含樹木的影片時，不會特別關心樹葉的運動方式」，因此採用這種抽象概念的模型，相對於業界競品效率更佳。

研究人員同時提到，V-JEPA 採用一種名為「Frozen Evaluations」的設計結構，即「模型在預訓練之後，核心部分不會再改變」，因此只需要在模型之上添加小型專門層即可適應新任務，具有更高普適性。