Google推出AI擴散模型Lumiere,可通過文字生成連貫動作影片
品玩 / 何渝婷編譯
2024-01-29 17:03

(示意圖/取自pixabay)

根據《 heehel 》報導,Google研究院日前推出了一款名為 Lumiere 的「文生影片」擴散模型,主打採用自家最新開發的「Space-Time U-Net」基礎架構,號稱能夠一次生成「完整、真實、動作連貫」的影片。

Google表示,業界絕大多數「文生影片」模型無法生成時間長、品質佳、動作連貫逼真的內容,這是因為此類模型通常「分段生成影片」,首先產生幾張關鍵幀,接著用「時間超級分辨率(Temporal Super-Resolution)」技術,生成關鍵幀之間的影片文件,這種方法雖然能夠節省 RAM,但難以生成「連貫逼真」的影片。

Google提到,他們的新模型 Lumiere 相對於業界模型最大的不同是採用了全新「Space-Time U-Net」基礎架構,該架構能夠在空間和時間上同時「降採樣(Downsample)」訊號,從而在「更緊湊的時空中進行更多運算」,令 Lumiere 生成持續時間更長、動作更連貫的影片。

除了應用「Space-Time U-Net」基礎架構外,Google還介紹了 Lumiere 的基礎特性,該 AI 建立在一個經過預先訓練的「文生圖」模型基礎上,研究人員首先讓基礎模型生成影片分幀的基本像素草稿,接著通過空間超分辨率(SSR)模型,逐步提升分幀分辨率及細節,並利用「Multidiffusion」通用生成框架提升模型穩定性,從而保證了最終輸出的影片一致性和連續性。

本文為品玩授權刊登,原文標題為「谷歌推出 AI 擴散模型 Lumiere,可通過文字生成連貫動作視頻