Google推出AI擴散模型Lumiere，可通過文字生成連貫動作影片

（示意圖/取自pixabay）

根據《 heehel 》報導，Google研究院日前推出了一款名為 Lumiere 的「文生影片」擴散模型，主打採用自家最新開發的「Space-Time U-Net」基礎架構，號稱能夠一次生成「完整、真實、動作連貫」的影片。

Google表示，業界絕大多數「文生影片」模型無法生成時間長、品質佳、動作連貫逼真的內容，這是因為此類模型通常「分段生成影片」，首先產生幾張關鍵幀，接著用「時間超級分辨率（Temporal Super-Resolution）」技術，生成關鍵幀之間的影片文件，這種方法雖然能夠節省 RAM，但難以生成「連貫逼真」的影片。

Google提到，他們的新模型 Lumiere 相對於業界模型最大的不同是採用了全新「Space-Time U-Net」基礎架構，該架構能夠在空間和時間上同時「降採樣（Downsample）」訊號，從而在「更緊湊的時空中進行更多運算」，令 Lumiere 生成持續時間更長、動作更連貫的影片。

除了應用「Space-Time U-Net」基礎架構外，Google還介紹了 Lumiere 的基礎特性，該 AI 建立在一個經過預先訓練的「文生圖」模型基礎上，研究人員首先讓基礎模型生成影片分幀的基本像素草稿，接著通過空間超分辨率（SSR）模型，逐步提升分幀分辨率及細節，並利用「Multidiffusion」通用生成框架提升模型穩定性，從而保證了最終輸出的影片一致性和連續性。

本文為品玩授權刊登，原文標題為「谷歌推出 AI 擴散模型 Lumiere，可通過文字生成連貫動作視頻」