今天我們來(lái)正式研究谷歌的最新視頻合成論文videopoet: A Large Language Model for Zero-Shot Video Generation。這篇論文是一個(gè)劃時(shí)代的產(chǎn)品,之所以這么說(shuō),他有兩個(gè)核心貢獻(xiàn):1、將文本、視頻、圖片、音頻統(tǒng)一編碼成一個(gè)codebook空間,然后用LLM那套訓(xùn)練范式訓(xùn)練。2、效果上,他可以合成5秒(41幀)的視頻,核心突破是它可以保持運(yùn)動(dòng)的一致性。這一點(diǎn)( motion)很難,因?yàn)槿祟悓?duì)動(dòng)作連貫性很敏感。稍微有些別扭就覺(jué)得視頻很假。
這篇文章的方法可以說(shuō)跟Sora差別很小,像文本視頻音頻統(tǒng)一編碼就完全是一樣的。核心差別在于訓(xùn)練任務(wù)的不一樣上。Sora跟 李飛飛他們的工作WALT [4] 是一樣的,就是在訓(xùn)練任務(wù)上,一個(gè)擴(kuò)散模型;而videopoet是一個(gè)mask自回歸模型。
這兩種范式各有千秋,前一種合成圖片視頻的真實(shí)場(chǎng)景逼真度更高,后一種方法合成視頻音頻的連貫性更好。應(yīng)該結(jié)合起來(lái)一起用。
之所以有這樣的區(qū)別,我仔細(xì)思考了下背后的數(shù)學(xué)邏輯:前者的diffusion擴(kuò)散模型,他是針對(duì)原圖增加高斯噪聲,然后讓模型學(xué)習(xí)去燥,這樣模型更能學(xué)到逼真度高的畫卷方法,他讓模型去學(xué)習(xí)了像素的真實(shí)分布規(guī)律。這一點(diǎn)我多講一句,我想起學(xué)校生涯的時(shí)候?qū)熝芯侩[寫分析的領(lǐng)域知識(shí),就是將一張圖片里的一些像素值改掉,然后讓檢測(cè)器檢測(cè)出來(lái)哪些圖片有篡改,哪些沒(méi)有。那么這個(gè)擴(kuò)散模型其實(shí)就是干這個(gè)活,只是不是手工篡改像素值,而是利用高斯噪聲來(lái)篡改像素值。而后一種mask回歸任務(wù)呢,他主要特征是前一幀預(yù)測(cè)后一幀,或者是圖片中心預(yù)測(cè)整個(gè)四周,四周預(yù)測(cè)中心或者左邊預(yù)測(cè)右邊這些任務(wù),他整個(gè)任務(wù)設(shè)計(jì)的就是next token的意思,當(dāng)然就主要學(xué)習(xí)視頻的連貫性了。
因此,sora你可以理解為WALT的改進(jìn)版。并不神秘。模型結(jié)構(gòu)變大了,然后數(shù)據(jù)變多了,然后更高清了。效果更好了。后面我們?cè)傺凶xWALT。
言歸正傳。我們來(lái)正式解刨videopoet。這篇文章知識(shí)密度很高。我看了好久才搞懂。
scaling law的正確姿勢(shì):訓(xùn)練videopoet需要多少GPU
我們來(lái)認(rèn)真盤一下這個(gè)事情。他也是大家很關(guān)心的事。
Mask模型本質(zhì)是一個(gè)分類器,預(yù)測(cè)next token是什么。經(jīng)典圖像分類工程中,imagenet數(shù)據(jù)集,共1000個(gè)類別,你可以認(rèn)為是token的cookbook是1000 的size,然后總數(shù)據(jù)集是128萬(wàn),合每個(gè)類別1300張圖片的樣子。這個(gè)類比的意思是,一個(gè)token的全分布概率計(jì)算,需要1300個(gè)樣例來(lái)統(tǒng)計(jì)。
GPT1的詞典大小是40,478 個(gè),GPT-2的詞典大小為50257個(gè),因此詞典差別不是很大,那么我們姑且假定GPT4的詞典大小為6萬(wàn),他的數(shù)據(jù)集呢,是13萬(wàn)億個(gè) token,也就是每個(gè)token有2億個(gè)樣例來(lái)計(jì)算全分布概率才能達(dá)到GPT4的效果。
題外話:
大模型之所以大,核心問(wèn)題就是詞典大小太大,導(dǎo)致最后一層的預(yù)測(cè)softmax層參數(shù)巨大,需要大量的樣例才能將這些參數(shù)完整訓(xùn)練出來(lái)。因此造成了大的資源浪費(fèi)。我覺(jué)得這個(gè)是一個(gè)巨大的bug。是否可以分層分group分步執(zhí)行,將這個(gè)計(jì)算量降低,因?yàn)楸緛?lái)就不符合邏輯,這么巨大的cookbook其實(shí)不符合人類的認(rèn)知邏輯的,我們會(huì)將禮拜天和星期日當(dāng)一個(gè)token,而LLM的話就是兩個(gè),其實(shí)是可以壓縮的。
看完覺(jué)得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。