網頁擠崩潰！OpenAI影音生成大模型Sora終於正式登場

在OpenAI的「12 Days of Christmas」12天連更計劃的第3天，影音生成大模型Sora終於正式登場。

今年2月16日，OpenAI首次向外界展示了Sora的存在。

據其介紹，Sora可以直接輸出長達60秒的影片，並且包含高度細緻的背景、複雜的多角度鏡頭，以及富有情感的多個角色。

OpenAI在官網上公佈了數十個影片demo，並不斷在社群平台X上放出由Sora生成的影片，這些內容被集合推送至OpenAI的TikTok帳號上，短短5天內便獲得了51.3萬次讚，粉絲數也漲至10.6萬。

儘管「多模態模型」並不新鮮，文本到影片的模型也此前已存在，但從OpenAI公布的影片中可以看到，Sora可以生成的影片長度和準確性完全顛覆了市場上現有產品的表現，堪稱史上最強文生影音產品。

Sora不僅為OpenAI帶來了大量粉絲，也讓其估值進一步提升。

不過，當時這家公司表示，Sora在短期內不會向大眾開放，因為其「技術仍存在一些缺陷，包括一些空間問題」。

在將近10個月之後，萬眾矚目下，Sora終於在此次系列發表中重磅登場。

OpenAI表示，2月發表Sora之後，團隊開發了其新版本Sora Turbo，其性能有了顯著進步，即日起該版本將作為獨立產品提供給ChatGPT Plus和Pro用戶。

在價格上，20美元一個月的ChatGPT Plus用戶，每月可以生成最多50個影片，分辨率最高為720p，時長為 5 秒；每月200美元的ChatGPT Pro用戶，每月最多可以生成500個影片，可以同時生成五個影片，時長20秒，分辨率最高為1080p，並可下載無浮水印影片。

Sora Turbo可以生成最長達20秒的影片，最高1080p清晰度，有寬、竪、方型的比例可選。在生成模式上，除了基礎的文本轉視頻 (Text-to-Video)模式，還有文本+圖像轉影片（Text+Image-to-Video）模式，利用圖像輔助Sora理解用戶的創作意圖，以及融入特定圖像元素；以及文本+影片轉影片 (Text+Video-to-Video)模式，用戶可以上傳已有的影片，並結合文本描述來對其進行修改或擴展。

此外，Sora Turbo還有多種影片編輯工具，包括替換、刪除或重新構想影片中的元素；找到並隔離最佳幀，然後向任一方向延伸它們以完成場景；使用Loop剪輯並創建無縫重複的贏片以及一個名為Storyboard的選項，用戶可以通過它詳細描述希望影片在不同時間點發生的內容，從而更好地指導一系列片段的生成。

目前，http://sora.com官方網站已經上線，美國及其他市場的ChatGPT付費用戶可以通過該網站開始使用Sora，但在歐洲大部分地區和英國還需要一段時間才能使用。

不過，由於實在是太火紅，Sora網站一度被擠到崩潰，OpenAI CEO阿特曼（Sam Altman）表示：「由於需求超出預期，我們將不得不間歇性地關閉新用戶註冊，並且生成內容的速度會在一段時間內減慢。」

在技術路線上，目前，業界普遍猜測Sora的成功延續了OpenAI的Scaling law法則，即通過海量的數據，大量的算力，再加上大參數模型，最終「大力出奇跡」。

OpenAI研究科學家Noam Brown在Sora Turbo發表後表示，Sora是scale力量最直觀的展示；阿特曼則表示，大家可以將 Sora 看作影片版的GPT-1。

市場預計，Sora的發表會對影片製作領域帶來革命性的變化，無論是電影製作、廣告、遊戲開發還是社交媒體，都可以借助影片生成大模型降低視頻創作的門檻，產生新的機遇。

自今年2月首次預告Sora以來，OpenAI便開始與電影製片廠、媒體高管以及經紀公司展開會談，OpenAI還允許一些藝術家、知名演員和導演試用該服務。

OpenAI還表示，Sora是一項理解和模擬現實的基礎性AI技術，是開發能夠與物理世界互動模型的重要一步。

影音生成模型領域雖然看起來火熱，也面臨著非常嚴峻的挑戰。近日，百度CEO李彥宏稱「百度不做Sora」的演講被媒體曝光，李彥宏在內部談話中稱，Sora這種影音生成模型的投入週期太長，10年、20年都可能拿不到業務收益，無論多火紅，百度都不去做。

界面新聞從一位負責視頻生成模型的技術人士處瞭解到，生成式AI技術正大幅降低影音生成的門檻，導致影音數據以20倍左右的速度成長，對運算成本和效率提出了嚴峻的挑戰。

以Sora模型為例，其訓練和推理所需的算力需求分別達到了GPT-4的4.5倍和近400倍。

中國銀河證券研究院的報告也顯示，Sora對算力需求呈指數級成長，其根據Sora參數規模推演出的訓練單次算力需求或可達到2.6×10^24Flops，相當於GPT-3175B的8.2倍。

目前Sora還在初級階段，伴隨不斷迭代調優，其訓練數據集規模將進一步增大，未來算力需求也會大幅增加。

上述技術人士還表示，在編解碼層和框架層，影音生成模型也面臨著諸多挑戰，一方面是效率的問題，另一方面是在計算需求日益成長的情況下，能否靈活處理越來越複雜的需求。

這些都對影片生成模型形成巨大考驗，但其在商業化上的形勢仍然不夠明朗，一定程度上使訓練和推理成本上的挑戰更為嚴峻。

影片生成模型同時還面臨著安全方面的挑戰，OpenAI表示，為了防止被濫用，用Sora生成的影片會帶有C2PA元數據，表明這些影片是AI生成的。

在上傳圖像和影片之前，OpenAI還會要求用戶同意使用協議，包括不得上傳18歲以下未成年的照片、色情或暴力內容、受版權保護的內容，一旦被發現上傳違禁內容，帳號會被關停。

本文為界面新聞授權刊登，原文標題為「網頁擠崩潰，OpenAI視頻生成大模型Sora終於正式登場」