ChatGPT之后，Sora橫空出世，可怕還是可敬？

藍(lán)海情報網(wǎng) 2024-04-28 21:55:38 669

繼ChatGPT成為全世界的焦點(diǎn)后，OpenAI再一次引爆了科技圈。

北京時間2月16日凌晨2點(diǎn)左右，美國OpenAI公司正式發(fā)布其首個文本－視頻生成模型Sora。據(jù)報道，Sora能夠根據(jù)文本提示創(chuàng)建詳細(xì)的視頻、擴(kuò)展現(xiàn)有視頻中的敘述以及從靜態(tài)圖像生成場景。

相較于文生圖來說，文生視頻難度更高，在數(shù)據(jù)質(zhì)量、算力以及多融合技術(shù)的復(fù)雜性上都有諸多需要突破的關(guān)卡，所以一直以來文生視頻的發(fā)展并不算順利。

沒想到OpenAI一出手就是王炸，Sora的實(shí)力可以說是藐視同行的存在。Sora 在日語中是天空的意思，引申含義還有自由，這不禁讓我們想到馬斯克我們的目標(biāo)是星辰大海的豪情壯志。

OpenAI也強(qiáng)調(diào)Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)，我們相信這一功能將成為實(shí)現(xiàn)通用人工智能（AGI）的重要里程碑。

同行們紛紛對Sora發(fā)出贊嘆：馬斯克「人類愿賭服輸」，Runway聯(lián)合創(chuàng)始人「game on」的感慨，360董事長周鴻祎作出Sora意味著AGI實(shí)現(xiàn)將從10年縮短到1年的預(yù)判，前阿里總裁賈揚(yáng)清也評價道「非常?！?hellip;…

ChatGPT之后，Sora橫空出世，可怕還是可敬？

業(yè)界更是吹爆它炸裂史詩級現(xiàn)實(shí)不存在了……

那么，Sora為什么能獨(dú)樹一幟？Sora崛起將改變哪些行業(yè)？作為視頻內(nèi)容生產(chǎn)者，又該如何應(yīng)對這場技術(shù)大考呢？

Sora碾壓同行，OpenAI沒有天花板

Sora模型是一個文生視頻產(chǎn)品，通過簡短或詳細(xì)的提示詞描述，或一張靜態(tài)圖片，Sora就能生成類似電影的逼真場景，涵蓋多個角色、不同類型動作和背景細(xì)節(jié)等。

簡單理解就是，只要輸入一句話，AI就會根據(jù)你的描述，生成一段視頻。

在Sora一口氣發(fā)布的48個演示視頻中，隨便挑兩個讓大家感受一下Sora的實(shí)力。

比如，AI想象中的龍年春節(jié)，紅旗招展人山人海。有不少兒童好奇抬頭觀望舞龍隊伍，也有不少人掏出手機(jī)邊跟邊拍，海量人物角色各有各的行為。

再比如，一位時尚女性穿著黑色皮夾克、紅色長裙和黑色靴子走在東京街道上，她戴著太陽鏡，涂著紅色口紅，拎著黑色錢包，走路自信又隨意。而剛下過雨的東京街道潮濕且反光，在彩色燈光的照射下形成鏡面效果，細(xì)節(jié)超贊。

ChatGPT之后，Sora橫空出世，可怕還是可敬？

相比Runway、Pika等市面上現(xiàn)有的AI視頻模型，Sora展示出了遠(yuǎn)超預(yù)期的能力，主要表現(xiàn)在這三點(diǎn)上。

第一，是視頻長度的巨大提升，像Runway、Pika這些AI視頻模型僅能生成不足10秒，而Sora的視頻生成長度突破到了60秒。第二，是視頻內(nèi)容更加穩(wěn)定。相比于其他AI視頻模型鏡頭視角單一、內(nèi)容高度失真，Sora的視頻能實(shí)現(xiàn)單視頻的多角度鏡頭切換，最大限度還原現(xiàn)實(shí)世界的真實(shí)場景，保持了合理的連貫性。

是深刻的語言理解能力，Sora能夠深層次識別用戶的指令，從而在生成的視頻中呈現(xiàn)出豐富的表情和生動的情感，還表現(xiàn)出對物理世界部分規(guī)律的理解。

總之，Sora解決了過去AI視頻被詬病的很多問題，它能形成更清晰的生成畫面、更逼真的生成效果、更準(zhǔn)確的理解能力、更順暢的邏輯理解能力、更穩(wěn)定和一致性的生成結(jié)果等等，目前，Sora已經(jīng)成為最強(qiáng)的AI視頻生成類模型。

而從技術(shù)層面來說，Sora之所以能夠碾壓同行，在于它采取了一個新的架構(gòu)——Diffusion transformer模型。與Runway、Pika等主流AI視頻聚焦于擴(kuò)散模型不同，Sora這個模型融合了擴(kuò)散模型與自回歸模型的雙重特性。

在這個新模型架構(gòu)中，OpenAI沿用了此前大語言模型的思路，提出了一種用Patch（視覺補(bǔ)?。┳鳛橐曨l數(shù)據(jù)來訓(xùn)練視頻模型的方式。

簡單理解，就是將視頻和圖片切成很多小塊（這些小塊就是Patch），OpenAI通過這種方式將視頻壓縮到一個低維空間，再用擴(kuò)散模型模擬物理過程中的擴(kuò)散現(xiàn)象來生成內(nèi)容數(shù)據(jù)，生成的視頻一開始看起來像靜態(tài)噪音，然后通過多個步驟去除噪音，逐步轉(zhuǎn)換視頻。

ChatGPT之后，Sora橫空出世，可怕還是可敬？

不得不說，從文字（ChatGPT）到圖片（DALL·E ）再到視頻（Sora），OpenAI團(tuán)隊就好像沒有能力天花板一樣。

Sora以碾壓式的優(yōu)勢勝出后，資本端同時傳來好消息。在完成最新交易后，OpenAI的估值已飆升至800億美元以上。紐約時報報道也稱，現(xiàn)在OpenAI的估值或達(dá)到約800億美元。

AI視頻生成元年來了

如果說2023年還是AI圖文生成元年的話，那么今年OpenAI將推動行業(yè)進(jìn)入AI視頻生成元年。

事實(shí)上，在Sora發(fā)布前，探索AI視頻模型的公司并不少，根據(jù)知名投資機(jī)構(gòu)a16z此前的統(tǒng)計，截至2024年底，市場上共有21個公開的AI視頻模型，包括大眾熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。

以Runway為例，在2023年6月底完成由Google、Nvidia、Salesforce參與的C輪融資后，估值超過15億美元。

ChatGPT之后，Sora橫空出世，可怕還是可敬？

但在Sora發(fā)布前，幾乎所有的 AI 視頻生成公司都陷入了同質(zhì)化競爭，他們希望AI應(yīng)用率先垂直落地到影視和廣告場景，所以過多關(guān)注更高畫質(zhì)、更高成功率、更低成本，并且他們將能生成15秒視頻作為一個里程碑。而Sora將眼光看向了更大時長的世界模型，這也是Sora成功的秘訣。

在OpenAI公布的Sora技術(shù)報告里談道：我們相信Sora今天展現(xiàn)出來的能力，證明了視頻模型的持續(xù)擴(kuò)展（Scaling）是開發(fā)物理和數(shù)字世界（包含了生活在其中的物體、動物和人）模擬器的一條有希望的路。‍

換言之，OpenAI更愿意把Sora 視為理解和模擬現(xiàn)實(shí)世界的模型基礎(chǔ)，而不是AI應(yīng)用落地的場景。這意味著，相比其他玩家，OpenAI的思維永遠(yuǎn)更進(jìn)一步。

面對Sora的降維打擊，AI視頻領(lǐng)域的創(chuàng)業(yè)者紛紛開啟了追趕模式。比如Runway已經(jīng)做好了Game On的準(zhǔn)備；Pika創(chuàng)始人郭文景一樣，開始籌備對標(biāo)Sora的新產(chǎn)品……

而幾乎是同一天，谷歌也發(fā)布了自家的最新大模型 Gemini 1.5。據(jù)介紹，Gemini 1.5的上下文窗口高達(dá)100萬個tokens，可以一次處理大量的信息——如1小時的視頻、11小時的音頻、3萬多行的代碼等。

谷歌稱，Gemini 1.5 Pro性能水平與谷歌迄今為止最大的模型1.0 Ultra 類似，并引入了長上下文理解方面的突破性實(shí)驗特征，性能、文本長度均超越了GPT-4 Turbo。

ChatGPT之后，Sora橫空出世，可怕還是可敬？

meta也不甘示弱，在近日公布了一種視頻聯(lián)合嵌入預(yù)測架構(gòu)技術(shù)V-JEPA。據(jù)報道，這是一種通過觀看視頻教會機(jī)器理解和模擬物理世界的方法，V-JEPA可以通過自己觀看視頻來學(xué)習(xí)，而不需要人類監(jiān)督，也不需要對視頻數(shù)據(jù)集進(jìn)行標(biāo)記，甚至根據(jù)一張靜止圖片來生成一個動態(tài)的視頻。

與其他模型相比，V-JEPA的靈活性使其在訓(xùn)練和樣本效率上實(shí)現(xiàn)了1.5到6倍的提升。跑分方面，V-JEPA在Kinetics-400達(dá)到了82.0%的準(zhǔn)確率，高于同行。

ChatGPT之后，Sora橫空出世，可怕還是可敬？

目前來看，國際上頭部科技巨頭基本已入局，大致可以分為科技巨頭+創(chuàng)業(yè)派+專業(yè)派的組合，科技巨頭以谷歌、meta為代表，專業(yè)派以Adobe此類面向?qū)I(yè)級用戶的老牌軟件巨頭為代表，創(chuàng)業(yè)派以Runway、Pika為代表。

而國內(nèi)目前的競爭格局還尚不清晰，目前大廠正在積極押注視頻生成，比如字節(jié)跳動的文生視頻模型MagicVideo-V2、阿達(dá)摩院的Zeroscope等。只能說，國內(nèi)大廠也很忙，大語言模型大戰(zhàn)才剛打響不久，現(xiàn)在又開始準(zhǔn)備卷下一場戰(zhàn)役。

但AI視頻生成確實(shí)是一個頗具前景的創(chuàng)業(yè)賽道。目前來看，Midjourney估值100億美元，Stability AI估值40億美元，Runway估值15億美元，就連成立時間不足一年的新貴Pika的估值已經(jīng)達(dá)到2.5億美元。

視頻內(nèi)容生產(chǎn)者慌不慌？

那么Sora的崛起，會影響哪些行業(yè)呢？

首當(dāng)其沖的是傳統(tǒng)影視行業(yè)。不少導(dǎo)演都說，影視行業(yè)要變天了。畢竟Sora能夠生成長達(dá)60秒的視頻，包括精細(xì)復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運(yùn)動。

而以往需要大量時間和資源來制作的特效和場景，現(xiàn)在可能只需要輸入一些文字描述，Sora就能夠自動生成這些高質(zhì)量畫面，這能夠大大減少影視制作的預(yù)算，從前大幾百萬的影視制作現(xiàn)在或許只要十分之一，同時也能夠代替一些不重要的職位，比如群演、燈光布置。

與此同時，還會有一個趨勢，就是影視作品的門檻會急劇降低。對于一個年輕人來說，只要他腦海里有一個好故事，就能夠依靠AI視頻技術(shù)低成本創(chuàng)作出來。

其次，廣告行業(yè)也能夠被顛覆掉，特別是一些汽車廣告、美食廣告、旅游景點(diǎn)的廣告，這些并不需要復(fù)雜情節(jié)的廣告作品很容易被AI替代掉。

再者，短視頻行業(yè)也會受到不小的沖擊，由于Sora可以生成60秒的視頻，會降低每一個普通人創(chuàng)作視頻的門檻，對于抖音乃至TikTok來說，都會出現(xiàn)不少生成視頻的內(nèi)容。

ChatGPT之后，Sora橫空出世，可怕還是可敬？

最后是游戲開發(fā)和新聞媒體行業(yè)。AI可以輔助創(chuàng)造更加復(fù)雜和真實(shí)的視覺效果，這使得游戲開發(fā)者能夠更快速、更高效地創(chuàng)建游戲內(nèi)容和場景，同時也可以減少制作成本。

新聞行業(yè)中，Sora可以幫助快速生成新聞報道中所需的視頻素材，尤其是在緊急情況下的現(xiàn)場報道。

當(dāng)行業(yè)紛紛為Sora叫好的同時，萬千視頻生產(chǎn)者心里也難免復(fù)雜，Sora如此強(qiáng)大，科技已經(jīng)如此恐怖，人類還能做什么？

不少網(wǎng)友直呼，工作要丟了，我該怎么辦？

從內(nèi)容創(chuàng)作者的角度來說，Sora帶來的影響也需要辯證看待。

首先看悲觀的方面，秉承著萬物不為我所有，萬物為我所用的原則，Sora能夠代替人類完成一些簡單、重復(fù)、追趕時效的工作。比如追逐熱點(diǎn)和比拼速度的能力，人類創(chuàng)作者無論怎么努力也比不過AI。因此，可以預(yù)料到，未來抓熱點(diǎn)性質(zhì)的視頻內(nèi)容將會嚴(yán)重過剩，一部分內(nèi)容方將被淘汰出局。

其次看積極的方面，Sora不具備創(chuàng)作者所必需的靈魂，不能勝任需要高度邏輯分析能力的深度解讀，不能完全取代人類的專業(yè)技能和創(chuàng)造力。

所以優(yōu)質(zhì)的創(chuàng)作者完全可以與AI達(dá)成分工，AI負(fù)責(zé)信息與材料的收集（即重復(fù)勞動），而自己負(fù)責(zé)專業(yè)性的輸出。

另外，Sora的實(shí)用價值還值得懷疑，它依然有不小的問題，比如它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理；可能無法理解因果關(guān)系；還可能混淆提示的空間細(xì)節(jié)；可能難以精確描述隨著時間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡等。

其實(shí)，在AI 發(fā)展的數(shù)年沉浮之中，有關(guān)AI替代人類的種種爭論從未停止，但變是常態(tài)，不變才不正常。

借用馬斯克的一句話，悲觀毫無意義，我寧愿樂觀。生成視頻的時代已經(jīng)到來，與其擔(dān)驚受怕地度過，不如抓緊人類手中的舵，投身這個AI新浪潮。

參考資料

《OpenAI發(fā)布首個視頻生成模型，1分鐘流暢高清，網(wǎng)友：整個行業(yè)RIP》學(xué)術(shù)頭條

《詳解Sora，為什么是AGI的又一個里程碑時刻？》36kr

OpenAI文生視頻模型Sora官網(wǎng)

看完覺得寫得好的，不防打賞一元，以支持藍(lán)海情報網(wǎng)揭秘更多好的項目。

標(biāo)簽：視頻模型生成隨筆