易觀:今年以來,隨著人工智能技術(shù)不斷實(shí)現(xiàn)突破迭代,生成式AI的話題多次成為熱門,而人工智能內(nèi)容生成(AIGC)的產(chǎn)業(yè)發(fā)展、市場(chǎng)反應(yīng)與相應(yīng)監(jiān)管要求也受到了廣泛關(guān)注。為了更好地探尋其在各行業(yè)落地應(yīng)用的可行性和發(fā)展趨勢(shì),易觀對(duì)AIGC產(chǎn)業(yè)進(jìn)行了探索并將發(fā)布AIGC產(chǎn)業(yè)研究報(bào)告系列。
報(bào)告以內(nèi)容生成模態(tài)作為視角,涵蓋了AIGC在語言生成、圖像生成、音頻生成、視頻生成、三維生成、分子發(fā)現(xiàn)與電路設(shè)計(jì)(圖生成)等領(lǐng)域的技術(shù)發(fā)展、關(guān)鍵能力、典型應(yīng)用場(chǎng)景,我國AIGC產(chǎn)業(yè)在商業(yè)化落地過程所面臨的挑戰(zhàn)和對(duì)前景的展望。希望通過梳理和把握AIGC產(chǎn)業(yè)的發(fā)展脈絡(luò),為各領(lǐng)域的應(yīng)用開發(fā)者和使用者提供參考。
在本期視頻生成篇中,報(bào)告梳理了視頻生成技術(shù)的發(fā)展階段和主流模型,分析了影響模型應(yīng)用能力的關(guān)鍵因素、市場(chǎng)上的主流產(chǎn)品及商業(yè)模式,并提出在進(jìn)行商業(yè)化落地時(shí),來自易用性、可控性、合規(guī)性三個(gè)方面的挑戰(zhàn)。視頻生成是指通過對(duì)人工智能的訓(xùn)練,使其能夠根據(jù)給定的文本、圖像、視頻等單模態(tài)或多模態(tài)數(shù)據(jù),自動(dòng)生成符合描述的、高保真的視頻內(nèi)容。
基于應(yīng)用視角可以對(duì)視頻生成的方式做進(jìn)一步細(xì)分,包括剪輯生成、特效生成和內(nèi)容生成,三種方式的結(jié)合使用可以大量應(yīng)用在電影電視、游戲、短視頻、廣告等視覺制作領(lǐng)域,在工業(yè)設(shè)計(jì)、建筑設(shè)計(jì)、教育培訓(xùn)等行業(yè)也可以提供更加直觀的演示效果。
視頻生成的技術(shù)發(fā)展可以大致分為圖像拼接生成、GAN/VAE/Flow-based生成、自回歸和擴(kuò)散模型生成幾個(gè)關(guān)鍵階段,隨著深度學(xué)習(xí)的發(fā)展,視頻生成無論在畫質(zhì)、長度、連貫性等方面都有了很大提升。但由于視頻數(shù)據(jù)的復(fù)雜性高,相較于語言生成和圖像生成,視頻生成技術(shù)當(dāng)前仍處于探索期,各類算法和模型都存在一定的局限性。在早期階段,視頻生成主要基于圖像-圖像技術(shù),通過將每一幀靜態(tài)圖像拼接成一個(gè)連續(xù)的視頻流。利用圖像拼接合成視頻的方法較為簡單易用,但缺點(diǎn)是生成的視頻質(zhì)量低、連貫性較差。
● GAN/VAE/Flow-based生成階段:
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,生成對(duì)抗網(wǎng)絡(luò)(GAN)、變分自編碼器(VAE)以及基于流的模型(Flow-based model)開始被用于視頻生成任務(wù),這個(gè)階段的發(fā)展主要集中在改進(jìn)模型訓(xùn)練和生成算法,由于對(duì)視頻直接建模的難度很高,一些模型通過將前景和背景解耦、運(yùn)動(dòng)和內(nèi)容分解等方式生成視頻,或是基于對(duì)圖像的翻譯來改進(jìn)生成效果,以加強(qiáng)連續(xù)幀之間的平滑過渡,但總體效果上生成視頻的質(zhì)量仍然較低,難以實(shí)際應(yīng)用。
● 自回歸和擴(kuò)散模型階段:
隨著Transformer、Stable Diffusion在語言生成、圖像生成領(lǐng)域取得的成功,基于自回歸模型和擴(kuò)散模型的視頻生成架構(gòu)逐漸成為主流,自回歸模型可以根據(jù)先前的幀來預(yù)測(cè)下一幀,視頻較為連貫自然,但存在生成效率低且錯(cuò)誤易積累的問題。一些研究將擴(kuò)散模型在圖像生成研究成果成功遷移到了視頻生成中,通過對(duì)圖像生成架構(gòu)的改進(jìn)使其適應(yīng)視頻生成任務(wù),這種方法的優(yōu)點(diǎn)是生成的視頻具有高保真的效果,但相應(yīng)地也需要更多的訓(xùn)練數(shù)據(jù)、時(shí)間和計(jì)算資源。在這個(gè)階段,視頻仍然不可避免地出現(xiàn)跳幀現(xiàn)象,以及內(nèi)容表現(xiàn)的邏輯性欠缺等問題。
主流模型實(shí)現(xiàn)原理及優(yōu)缺點(diǎn)
● 主流模型解析
Imagen-Video
1、實(shí)現(xiàn)原理:Imagen-Video是在Imagen模型基礎(chǔ)上開發(fā)的基于文本條件生成視頻模型,模型通過多個(gè)擴(kuò)散模型的組合,先根據(jù)文本prompt生成初始視頻,再逐步提高視頻的分辨率和幀數(shù)來生成視頻。
2、模型優(yōu)缺點(diǎn):所生成的視頻具有高保真度、可控性和世界知識(shí),支持生成各種藝術(shù)風(fēng)格的各種視頻和文本動(dòng)畫,并具有對(duì)3D對(duì)象理解能力,但級(jí)聯(lián)模型采用的并行訓(xùn)練方式所需要計(jì)算資源較高。
Gen
1、實(shí)現(xiàn)原理:Gen模型通過潛在擴(kuò)散模型學(xué)習(xí)文本-圖像特征,可以根據(jù)給定的文本提示或參考圖像生成新的視頻,或根據(jù)原始視頻+驅(qū)動(dòng)圖像進(jìn)行視頻風(fēng)格轉(zhuǎn)換等多種任務(wù)。
2、模型優(yōu)缺點(diǎn):模型在視頻渲染和風(fēng)格轉(zhuǎn)換方面具有較好的表現(xiàn),生成的視頻藝術(shù)性和圖像結(jié)構(gòu)保持能力較強(qiáng),因此可以更好地適應(yīng)模型定制要求,但Gen模型在生成結(jié)果的穩(wěn)定性方面仍然存在局限。
CogVideo
1、實(shí)現(xiàn)原理:CogVideo是基于自回歸方法的大規(guī)模文本-視頻生成模型,將圖像生成模型CogView2應(yīng)用于文本-視頻生成實(shí)現(xiàn)高效學(xué)習(xí),通過預(yù)測(cè)并不斷拼接前一幀的遞歸方式來生成視頻。
2、模型優(yōu)缺點(diǎn):模型支持中文prompt,多幀率分層訓(xùn)練的方法能夠更好地理解文本-視頻的關(guān)系,生成的視頻看起來更加自然,但由于模型對(duì)輸入序列長度存在限制。
● 視頻生成代表模型:
影響模型應(yīng)用能力的關(guān)鍵因素
視頻生成任務(wù)的特點(diǎn)在于其所包含的畫面信息多、復(fù)雜程度高、動(dòng)作隨機(jī)性強(qiáng),還需要考慮空間、時(shí)間等因素,另外由于人眼對(duì)畫面?zhèn)斡胺浅C舾?,人物的?dòng)作細(xì)節(jié)是否連貫直接影響著視頻的生成效果,然而這些因素也使模型性能面臨著不小的考驗(yàn)。在實(shí)際應(yīng)用中還需要更多地考慮來自不同行業(yè)、不同場(chǎng)景的用戶需求,因此視頻生成的可控性、逼真度、連貫性是影響應(yīng)用能力的關(guān)鍵因素。
● 可控性
對(duì)視頻的可控性要求主要包括是否能夠生成任意長度的視頻、能否根據(jù)用戶需求進(jìn)行時(shí)長調(diào)整、與給定的文本和圖像的關(guān)聯(lián)性是否足夠強(qiáng)、視頻屬性和視頻中的元素是否可控可編輯,這需要提升模型對(duì)長文本理解能力,并且在時(shí)長增加的同時(shí)需要保證生成速度和畫面質(zhì)量的穩(wěn)定。特別是對(duì)影視、動(dòng)畫、廣告等視覺制作領(lǐng)域的行業(yè)用戶而言,可變可控是視頻生成深入行業(yè)應(yīng)用的基礎(chǔ)。視頻的逼真度主要取決于畫面質(zhì)量和內(nèi)容邏輯,不僅需要視頻具有高分辨率,場(chǎng)景和人物具有真實(shí)感、藝術(shù)性,能夠展現(xiàn)清晰豐富的畫面細(xì)節(jié),還需要連續(xù)幀之間、文本-視頻之間保持高度相關(guān)性,使視頻內(nèi)容中所表現(xiàn)的故事情節(jié)、物體關(guān)系、運(yùn)動(dòng)狀態(tài)等符合基本邏輯。連貫性也就是視頻的絲滑程度,包括幀之間的過渡效果、動(dòng)作的連續(xù)性、畫面的流暢性、場(chǎng)景的平滑切換等。視頻生成本質(zhì)上就是生成一串連續(xù)的圖片,因此需要保證生成的連續(xù)幀之間在時(shí)空上的連貫,避免出現(xiàn)畫面模糊、抖動(dòng)、偽影等問題。典型產(chǎn)業(yè)應(yīng)用場(chǎng)景
與視頻生成相關(guān)的典型應(yīng)用場(chǎng)景包括視頻內(nèi)容識(shí)別、視頻編輯、視頻生成、視頻增強(qiáng)、視頻風(fēng)格遷移等,目前視頻屬性編輯相關(guān)的應(yīng)用逐漸成熟,但視頻生成距離精細(xì)化控制還存在一定差距,尚未形成產(chǎn)業(yè)規(guī)?;瘧?yīng)用的能力,未來隨著生成效果的提升,在很多行業(yè)中將具備廣闊的應(yīng)用前景。● 視頻內(nèi)容識(shí)別:對(duì)視頻中的物體、人臉、場(chǎng)景等元素進(jìn)行識(shí)別分類,可以應(yīng)用在交通、安防領(lǐng)域進(jìn)行視頻檢索、視頻分類、目標(biāo)檢測(cè)跟蹤、異常事件識(shí)別預(yù)警等,增強(qiáng)監(jiān)控和交通管理的智能化水平;在社交媒體、營銷服務(wù)領(lǐng)域可以進(jìn)行內(nèi)容標(biāo)簽生成、情感分析等任務(wù);另外還可以幫助影視工作者進(jìn)行人物分類、場(chǎng)景分析、鏡頭分析等,提高電影電視的制作效率和質(zhì)量。● 視頻編輯:包括對(duì)現(xiàn)有視頻進(jìn)行自動(dòng)剪輯、拼接、合成、特效處理、添加音效字幕等操作,從而達(dá)到更好的視覺效果。在影視制作領(lǐng)域,后期剪輯工作往往需要對(duì)視頻進(jìn)行逐幀處理,需要消耗大量的人力和時(shí)間,視頻編輯能夠輔助進(jìn)行人物摳取、改色、消除或替換視頻中的部分畫面元素,提升剪輯師、特效師的工作效率,顯著降低后期制作成本;在短視頻領(lǐng)域,能夠幫助個(gè)人創(chuàng)作者進(jìn)行素材剪輯、特效添加,快速制作出更有創(chuàng)意的視頻內(nèi)容。● 視頻生成:根據(jù)給定的文本描述、圖片、視頻等,自動(dòng)生成符合場(chǎng)景需求的視頻內(nèi)容,應(yīng)用在視覺制作行業(yè)可以有效實(shí)現(xiàn)降本增效。例如生成電影、電視劇、游戲中的虛擬場(chǎng)景、角色、特效等,或是根據(jù)原始影片生成電影預(yù)告片,根據(jù)產(chǎn)品文字介紹生成視頻廣告等。另外,視頻生成也可以應(yīng)用在醫(yī)學(xué)領(lǐng)域,輔助生成動(dòng)態(tài)人體結(jié)構(gòu)、疾病模型等,用于醫(yī)學(xué)教育和研究工作。● 視頻增強(qiáng):包括對(duì)視頻進(jìn)行色彩校正、去噪、銳化、超分辨率等處理。在影視和廣告制作過程中能夠?qū)σ曨l畫質(zhì)、色彩、對(duì)比度進(jìn)行調(diào)整,特別是能夠應(yīng)用在對(duì)老電影、珍貴影像資料的修復(fù)工作中,提升視覺效果和研究價(jià)值。在安防監(jiān)控領(lǐng)域,視頻增強(qiáng)可以提高監(jiān)控畫面的清晰度、減少噪聲,有助于提高監(jiān)控系統(tǒng)的效率和可靠性;應(yīng)用在在醫(yī)療領(lǐng)域可以提高醫(yī)學(xué)影像的質(zhì)量,輔助進(jìn)行微創(chuàng)手術(shù)、遠(yuǎn)程診療、手術(shù)培訓(xùn)等。● 視頻風(fēng)格遷移:根據(jù)給定的文字描述或參考圖,將原始視頻轉(zhuǎn)換為指定的不同風(fēng)格,例如將真人視頻轉(zhuǎn)換為油畫/素描/動(dòng)漫等風(fēng)格,或是進(jìn)行黑白-彩色轉(zhuǎn)換,日間-夜間轉(zhuǎn)換處理,可以幫助影視工作者根據(jù)作品主題和情節(jié)需要快速調(diào)整風(fēng)格,提高影視作品的藝術(shù)性;在廣告制作領(lǐng)域可以根據(jù)產(chǎn)品定位進(jìn)行風(fēng)格轉(zhuǎn)換,使其更加符合目標(biāo)受眾的偏好。市場(chǎng)主流產(chǎn)品及商業(yè)模式
● 海外市場(chǎng)情況
目前,海外主流的視頻生成工具主要來自Adobe、谷歌、meta等科技巨頭,以及Runway這樣的人工智能創(chuàng)業(yè)公司。Adobe作為老牌的科技公司,Adobe在視覺制作領(lǐng)域擁有廣泛的用戶基礎(chǔ),能夠滿足行業(yè)用戶精細(xì)化視頻編輯要求。近期,Adobe宣布將Firefly引入其視頻制作軟件Premiere Pro和After Effects中,可以看到其正在加快將生成式AI作為工具嵌入到自有產(chǎn)品中,來增強(qiáng)Adobe全家桶的使用體驗(yàn)。憑借在視覺制作領(lǐng)域的專業(yè)性,現(xiàn)階段Adobe面向B端專業(yè)用戶群體的地位暫時(shí)難以撼動(dòng),而將AI能力全面搭載到Adobe產(chǎn)品體系中,提供便捷程度高、兼容性強(qiáng)的云化服務(wù)將有利于Adobe沉淀行業(yè)用戶數(shù)據(jù)構(gòu)建生態(tài)閉環(huán),在未來繼續(xù)保持其市場(chǎng)競爭優(yōu)勢(shì)。Runway則一方面通過不間斷的研究和迭代保持自身處于AI技術(shù)能力前沿,同時(shí)Runway將30多個(gè)自研AI生成工具集成到其WEB端,意圖打造自己的云端視頻編輯工作流,構(gòu)建起模型+應(yīng)用一體化的商業(yè)模式。目前,Gen-1提供有限次數(shù)的試用后采取付費(fèi)訂閱模式,Gen-2目前尚未正式開放,需要通過Runway在Discord社區(qū)申請(qǐng)內(nèi)測(cè)。Runway面向C端用戶已上線搭載Gen-1手機(jī)版的視頻生成app,支持文本生成視頻,以及根據(jù)指定圖像對(duì)手機(jī)實(shí)時(shí)拍攝的視頻進(jìn)行風(fēng)格轉(zhuǎn)換,但使用效果與其他輕量化的視頻剪輯工具相比并沒有突出亮點(diǎn);而從Runway參與奧斯卡獲獎(jiǎng)影片《瞬息全宇宙》特效制作的成功經(jīng)驗(yàn)來看,未來隨著Gen-2能力的成熟,面向B端專業(yè)客戶提供視覺定制化服務(wù),也將是Runway利用其技術(shù)優(yōu)勢(shì)實(shí)現(xiàn)商業(yè)化落地的有效手段。谷歌已經(jīng)發(fā)布的兩款視頻生成工具Imagen Video和Phenaki,將模型能力分別專注在對(duì)視頻畫質(zhì)、視頻時(shí)長的提升上,以滿足不同場(chǎng)景的應(yīng)用需求,其中Imagen Video支持生成分辨率為1280x768像素,每秒 24 幀的高保真度視頻,Phenaki則支持根據(jù)一段較長的文字故事生成2分鐘以上的視頻;meta發(fā)布的視頻生成工具M(jìn)ake-a-Video支持文本生成視頻、將單幀圖像擴(kuò)展為視頻、為視頻添加細(xì)節(jié)以及視頻風(fēng)格轉(zhuǎn)換等任務(wù)。但目前這三款工具尚未開放測(cè)試,成果主要體現(xiàn)在論文和演示視頻中,其實(shí)際商用可能性還有待時(shí)間驗(yàn)證。中國市場(chǎng)在AI視覺制作領(lǐng)域的參與者主要包括字節(jié)跳動(dòng)、快手科技等短視頻領(lǐng)域頭部廠商,百度、騰訊、阿里等大型云廠,以及智譜華章、萬興科技、影譜科技等AI科技公司和視覺創(chuàng)意公司。隨著視頻生成的技術(shù)發(fā)展,視頻制作的門檻將進(jìn)一步降低,這也為中國視頻內(nèi)容生產(chǎn)行業(yè)實(shí)現(xiàn)用戶增長帶來了新的機(jī)會(huì)。字節(jié)跳動(dòng)、快手科技均通過在短視頻領(lǐng)域積累的龐大用戶數(shù)據(jù)來沉淀技術(shù)能力,提升視頻剪輯產(chǎn)品的使用體驗(yàn),對(duì)于新媒體從業(yè)者、短視頻平臺(tái)主播、vlog創(chuàng)作者等有輕量化的視頻制作需求的C端用戶具有明顯優(yōu)勢(shì),在各自用戶圈層中能夠保持較好的用戶粘性。其中,字節(jié)將剪映高度嵌入抖音的工作流體系,支持多端同步和云備份,目前剪映的盈利手段主要來自廣告合作、售賣視頻模版和視頻制作課程等。面向B端用戶打造的視頻智能處理平臺(tái)可以進(jìn)行畫質(zhì)增強(qiáng)、畫質(zhì)修復(fù)、音頻降噪、影視化后處理等工作,能夠通過原子能力加速視頻生成和分發(fā);快手除了面向C端的視頻剪輯產(chǎn)品云剪,其利用C端打磨的技術(shù)和經(jīng)驗(yàn)已經(jīng)開始向B端拓展,并推出了視頻云品牌Streamlake,對(duì)行業(yè)用戶開放視頻生成相關(guān)任務(wù)的模塊化能力。百度將文心大模型能力引入視頻生成領(lǐng)域,百度云智能創(chuàng)作平臺(tái)提供根據(jù)圖文進(jìn)行視頻合成、視頻剪輯、音視頻對(duì)齊等服務(wù),而圍繞文心大模型構(gòu)建開放生態(tài),沉淀行業(yè)用戶數(shù)據(jù),保持在生成式AI的技術(shù)前沿是百度在AIGC領(lǐng)域領(lǐng)跑的關(guān)鍵;阿里云的視覺智能開放平臺(tái)聚焦向視覺智能技術(shù)企業(yè)輸出能力,并借助達(dá)摩院的開發(fā)者社區(qū)加速模型的優(yōu)化迭代,開放平臺(tái)涵蓋視頻生產(chǎn)多種下游任務(wù),支持部署在不同平臺(tái)的客戶端,能夠幫助行業(yè)用戶搭建自己的AI應(yīng)用場(chǎng)景;騰訊智影面向個(gè)人和企業(yè)用戶提供全鏈路的視頻創(chuàng)作服務(wù),以及數(shù)字人主播等特色功能,提供免費(fèi)版和多種付費(fèi)訂閱模式,目前已上線小程序版本,后續(xù)若持續(xù)提升智影在手機(jī)端剪輯、分享視頻的便捷體驗(yàn),將有利于依托微信用戶的高活躍度在短視頻領(lǐng)域形成差異化特色。智譜華章則基于模型及服務(wù)(MaaS)理念,圍繞自身技術(shù)優(yōu)勢(shì)來打造AI通用能力,向行業(yè)用戶提供精調(diào)的定制化模型服務(wù)解決方案。目前,文本視頻生成模型CogVideo采用完全開源模式,支持中文文本輸入,但模型仍處于研究試用階段,其實(shí)際應(yīng)用能力和與場(chǎng)景的適配性值得后續(xù)關(guān)注。雖然人工智能技術(shù)在視頻生成方面已經(jīng)取得了一定進(jìn)展,但現(xiàn)階段模型的生成效果并不理想,能夠同時(shí)在視頻長度、逼真度、連貫性三個(gè)維度上均達(dá)到商用水平的視頻生成產(chǎn)品仍然欠缺。除了算法模型層面的探索,在實(shí)際應(yīng)用中需要平衡模型性能與生成效率之間的關(guān)系,根據(jù)不同行業(yè)和場(chǎng)景的用戶需求對(duì)產(chǎn)品能力給予不同側(cè)重,包括產(chǎn)品是否易于使用或部署、生成結(jié)果是否穩(wěn)定可控、是否涉及技術(shù)應(yīng)用風(fēng)險(xiǎn)等,因此在落地過程中,需要考慮來自易用性、可控性、合規(guī)性三個(gè)方面的挑戰(zhàn),這也決定了視頻生成產(chǎn)品未來的商業(yè)化空間。單個(gè)視頻中所包含的信息量相較文本和圖像都更大、更復(fù)雜,模型層面上需要更多的計(jì)算資源、更強(qiáng)的理解和生成能力,而從應(yīng)用視角來說,使用者實(shí)際上更關(guān)心的是產(chǎn)品的易用性和使用體驗(yàn)。如何通過數(shù)據(jù)沉淀分析、功能與流程設(shè)計(jì)、引導(dǎo)交互等手段來改善模型局限性,將其打造為易于使用的產(chǎn)品,提升視頻生產(chǎn)的速度、便捷度、交互體驗(yàn)是在產(chǎn)業(yè)應(yīng)用層面更加需要解決的問題,產(chǎn)品易用性也是實(shí)現(xiàn)視頻生成商業(yè)化落地的首要條件。個(gè)人用戶對(duì)產(chǎn)品易用性的評(píng)判標(biāo)準(zhǔn)主要來自制作流程是否好上手、符合個(gè)人使用習(xí)慣,能夠幫助視頻創(chuàng)作者輕松地進(jìn)行視頻制作和發(fā)布,包括能夠快速搜索到與文本匹配的視頻素材,提供多樣化的內(nèi)容模版,支持多端同步、一鍵分享等便捷操作;小B端用戶的關(guān)注重點(diǎn)在于能否在成本可控的前提下快速制作產(chǎn)品營銷視頻、生成數(shù)字人主播等,從而提升品牌傳播和營銷成功率。因此面向這兩類群體需要持續(xù)打磨輕量化視頻制作工具,優(yōu)化核心功能模塊,在此基礎(chǔ)上引入生成式AI能力提供視頻內(nèi)容創(chuàng)意,從視頻的輔助制作進(jìn)展到AI協(xié)同創(chuàng)作。對(duì)視覺制作、內(nèi)容生產(chǎn)創(chuàng)意等行業(yè)用戶而言,產(chǎn)品易用性的要求還來自內(nèi)容性與交互性的融合,包括素材的商用性、與行業(yè)應(yīng)用場(chǎng)景的適配性,以及視頻快速精準(zhǔn)審核、批量制作分發(fā)的能力等。通過技術(shù)原子化服務(wù)和開放能力,與企業(yè)AI底座有效銜接,滿足即插即用和定制化服務(wù)等不同要求,將有利于針對(duì)行業(yè)用戶需求快速對(duì)接落地。目前從文本、圖像生成視頻普遍存在時(shí)間短、分辨率低、處理速度慢、生成結(jié)果不可控等問題,對(duì)復(fù)雜場(chǎng)景的理解和表現(xiàn)難度大,難以滿足視覺制作行業(yè)用戶的實(shí)際需求,距離直接商用還存在較大差距,可控性決定著生成內(nèi)容是否可用,目前仍然是人工智能生成內(nèi)容面臨的普遍挑戰(zhàn)。視頻的穩(wěn)定可控要求包括時(shí)長可調(diào)節(jié),視頻內(nèi)容可以保持良好的邏輯性、連貫性、時(shí)間上的一致性,視頻中的元素可高度編輯等。一方面需要通過引入先驗(yàn)知識(shí)、專家標(biāo)注數(shù)據(jù)等方法,加強(qiáng)模型對(duì)人類行為模式、世界知識(shí)、場(chǎng)景規(guī)則的學(xué)習(xí),幫助模型更好地理解視頻生成任務(wù)。還可以結(jié)合場(chǎng)景對(duì)視頻精度的不同要求,采用約束條件注入、微調(diào)訓(xùn)練專屬模型、使用額外控制工具等方法,提升生成結(jié)果的可控性。由于訓(xùn)練數(shù)據(jù)的規(guī)模、質(zhì)量、多樣性、標(biāo)注方式等對(duì)生成結(jié)果的可控性起到關(guān)鍵影響,在深入行業(yè)應(yīng)用時(shí)需要考慮到目前視頻生成可用的高質(zhì)量數(shù)據(jù)少,特別是文本-視頻數(shù)據(jù)非常稀缺,在模型層面可以通過數(shù)據(jù)增強(qiáng)、強(qiáng)化學(xué)習(xí)等方法合規(guī)利用現(xiàn)有數(shù)據(jù)進(jìn)行針對(duì)性訓(xùn)練,提升中文語料庫的訓(xùn)練效果。在應(yīng)用層面可以通過設(shè)置視頻生成的條件、生成范圍,對(duì)視頻生成結(jié)果手動(dòng)調(diào)整參數(shù)進(jìn)行局部優(yōu)化,或是在生成過程中增加交互式控制來調(diào)整生成結(jié)果。● 合規(guī)應(yīng)用挑戰(zhàn) 人工智能技術(shù)應(yīng)用風(fēng)險(xiǎn)是AIGC領(lǐng)域所面臨的共性問題,聚焦到視頻生成上,比較突出地體現(xiàn)在素材版權(quán)問題、隱私安全、倫理道德等方面。由于視頻內(nèi)容中包含圖像、音樂、濾鏡、特效、字幕等多種類型的信息,相較于圖像生成,視頻生成作品的版權(quán)問題則更加復(fù)雜;另外視頻換臉、數(shù)據(jù)偏見、不當(dāng)使用造成的個(gè)人隱私泄露、身份欺詐、虛假和有害信息傳播等問題,通過視頻傳播的風(fēng)險(xiǎn)程度、影響范圍也會(huì)更大。因此需要形成細(xì)化的行業(yè)性規(guī)范,建立監(jiān)管和內(nèi)容審查機(jī)制,明確各種類型數(shù)據(jù)合規(guī)獲取、處理、存儲(chǔ)和使用的范圍和方式,以及對(duì)違法行為進(jìn)行明確界定。大模型的持續(xù)演進(jìn)帶動(dòng)了生成式AI能力不斷進(jìn)化,在語言生成、圖像生成領(lǐng)域創(chuàng)造了令人驚喜的效果,而視頻的高維數(shù)據(jù)空間屬性使其研究更具挑戰(zhàn)性。目前視頻生成方面的探索主要聚焦在高分辨率視頻生成、針對(duì)超長文本的視頻生成、生成無限時(shí)長的連貫視頻等課題,并基于文生圖模型的研究成果,將其引入視頻生成模型對(duì)性能進(jìn)行優(yōu)化。例如英偉達(dá)和康奈爾大學(xué)的一項(xiàng)研究提出了視頻潛在擴(kuò)散模型,并在駕駛視頻合成的訓(xùn)練任務(wù)上取得了很好表現(xiàn),未來有望對(duì)自動(dòng)駕駛的應(yīng)用提供新方向;另外一些研究結(jié)合多模態(tài)信息融合的訓(xùn)練方法,使模型更強(qiáng)的語言理解能力,也將改善視頻訓(xùn)練數(shù)據(jù)不足的問題,在視頻檢索、視頻分類等場(chǎng)景中具備很強(qiáng)的實(shí)用價(jià)值。 隨著我國基礎(chǔ)通信技術(shù)的發(fā)展,視頻制作的云化是產(chǎn)業(yè)發(fā)展的必然趨勢(shì),下階段視頻制作的多端同步、多人在線協(xié)同創(chuàng)作的需求也會(huì)隨之增加,生成式AI能力將進(jìn)一步融入腳本創(chuàng)作、視頻剪輯、渲染、特效等視頻制作的全流程?,F(xiàn)階段,視頻生成還有很大的潛力尚未挖掘,模型性能與產(chǎn)品化落地之間也仍然存在著不小的差距,但隨著大語言模型、圖像生成等相關(guān)技術(shù)的快速迭代,有望為視頻生成技術(shù)帶來新的解題思路,而視頻工程化能力也將為視覺制作產(chǎn)業(yè)鏈帶來效率和模式上的巨大變革。
看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。
標(biāo)簽:
標(biāo)簽
內(nèi)容
隨筆
版權(quán)聲明:如果你想發(fā)貼或咨詢項(xiàng)目,請(qǐng)咨詢?cè)诰€客服人員!