国产精品综合av_日韩精品偷拍一区二区_久草视频资源在线_亚洲视频 中文字幕_亚洲电影AV一区春药高潮_小×导航福利在线导航_欧美性爱一级短视频_人成视频免费在线观看不卡_国产九色在线播放_国产高清无码一区二区

藍(lán)海情報(bào)網(wǎng)

patches的來(lái)龍去脈

藍(lán)海情報(bào)網(wǎng) 645

patches的來(lái)龍去脈

OpenAI真是一家偉大的公司。他做出GPT不是一個(gè)偶然,整個(gè)體制機(jī)制非常有利于專心做事的人。除牽頭人外,Sora團(tuán)隊(duì)都是入職一年內(nèi)的人,做出如此出色的成果,說(shuō)明整個(gè)機(jī)制出現(xiàn)了競(jìng)相涌現(xiàn)的良性循環(huán)。國(guó)內(nèi)的AI實(shí)驗(yàn)室估計(jì)一年寫自然基金項(xiàng)目的申請(qǐng)本答辯都費(fèi)勁。

從今天開始逐步的將sora周邊的論文梳理一遍。圍繞核心組件抽絲剝繭。先把邏輯盤清楚。

Sora技術(shù)報(bào)告里面提到自己對(duì)圖像構(gòu)建了一個(gè)類似于NLP里面tokens的概念的東西,取名為patches。今天來(lái)盤這個(gè)組件。

事實(shí)上,patches在幾年前的論文里就有。我盤了下幾篇經(jīng)典的關(guān)于patches的論文。分別為:

ViT- an image is worth 16X16 words (Google, 2020.10,ICLR2021)見參考文獻(xiàn)[1],

ViViT: A Video Vision Transformer (Google, 2021.03)見參考文獻(xiàn)[2],

MAE -Masked Autoencoders Are Scalable Vision Learners (meta, 2021.11) 見參考文獻(xiàn)[3]。

一、VIT-patches的起源

An Image is worth 16*16 words:transformers for image recognition as scale

這篇文章是patches的源頭。第一次有人將圖像編碼成一個(gè)個(gè)序列單元patches。他之所以這樣做,是因?yàn)樗胗胻ransformer 做圖像分類,CNN可以直接對(duì)圖像自動(dòng)分塊邊卷積邊滑動(dòng),而transformer需要輸入的是帶位置編碼position embedding的序列數(shù)據(jù)。因此文章為了解決這個(gè)gap,手動(dòng)對(duì)圖像進(jìn)行了分塊和打位置編碼。發(fā)現(xiàn)效果很好。

接下來(lái)由淺入深講一下他的做法:

patches的來(lái)龍去脈

整個(gè)算法結(jié)構(gòu)圖如上。虛線左邊是整個(gè)pipeline。右邊講的是左邊一個(gè)模塊 transformer encoder。他的方法非常簡(jiǎn)單,就是手工將一張正方形圖片切割為9份,然后將每個(gè)小方塊圖片的特征和位置編碼(1-9)作為transformer的輸入,同時(shí),他借用了berts的[class]token的做法,將圖片的分類類別名作為0位置的編碼,一起組成embedded patches 輸入到transformer來(lái)做分類。Transformer只是用了編碼器,然后將編碼器得到的特征通過(guò)一個(gè)MLP層做分類。

二、ViViT: A Video Vision Transformer

這篇文章講的是用transformer來(lái)做視頻分類的任務(wù)。

編碼視頻的時(shí)候,存在很多跟編碼圖片不一樣的地方。一個(gè)方面是量大,一個(gè)視頻一秒就是30幀圖片。另一個(gè)方面是,視頻有時(shí)域的概念。就是前一幀和后一幀同一個(gè)位置是有信息熵的。代表了前后的變化,同時(shí)合成視頻的時(shí)候要保證前后變化的連貫性。這些也是視頻的核心信息。

patches的來(lái)龍去脈

整個(gè)編碼過(guò)程如上圖所示。他的整個(gè)編碼過(guò)程是很簡(jiǎn)單的。單圖片的編碼跟VIT里的一樣。就是手動(dòng)將一張圖片編碼成1-9個(gè)小patch。然后,由于是視頻,就將他們按時(shí)間戳碼好。由于有時(shí)間這個(gè)維度,所以碼出來(lái)就是一個(gè)立方體。

這篇文章核心的貢獻(xiàn)是設(shè)計(jì)了4個(gè)視頻transformer編碼器。他的設(shè)計(jì)思路也非常簡(jiǎn)單,主要邏輯是在空域和時(shí)域上做一些變化。

1、時(shí)空注意力模型。

這個(gè)就是最原始的方法。他沒(méi)有做任何創(chuàng)新,直接將碼好的立方體輸入進(jìn)transformer,這樣的話,時(shí)域和空域之間每部都會(huì)交叉提取特征。計(jì)算量會(huì)比較大。

2、分步編碼。

patches的來(lái)龍去脈

這個(gè)模型的方法主要是分了兩步。如上圖,輸入初始編碼好的tokens后,第一步他構(gòu)建了一個(gè)空間的transformer Encoder。然后再接一層時(shí)域的,Temproal Transformer Encoder。最后接一層MLP的分類器。

3、model3 分步自注意力機(jī)制。

patches的來(lái)龍去脈

這個(gè)模型的變化是操作粒度縮小了。Model2的分步操作在transfomer編碼器那里。Model3的 分布操作在多頭注意力機(jī)制層中。他只有一個(gè)transformer,但他有兩個(gè)自注意力模塊,一個(gè)空間自注意力模塊,一個(gè)時(shí)域自注意力模塊。然后接上層歸一化,再接一個(gè)MLP做分類。這樣的話他節(jié)約了不少transformer內(nèi)部的通用層。

4、model4 分步點(diǎn)乘注意力機(jī)制層。

patches的來(lái)龍去脈

點(diǎn)乘注意力機(jī)制:這個(gè)我好好解釋一下什么叫做點(diǎn)乘注意力(dot-product)。

假設(shè)A矩陣是上層輸入的特征參數(shù),不是矩陣也可以,你可以是三維、四維向量。我操作的時(shí)候只取那個(gè)截面矩陣。那么A矩陣這些參數(shù)他的重要性我覺(jué)得應(yīng)該根據(jù)反向傳播的信號(hào)來(lái)學(xué)習(xí),假設(shè)重要性最高為1,有的參數(shù)重要性高就趨近于0.9,有的參數(shù)重要性低就趨近于0。但具體是多少呢,我需要用一個(gè)跟A同秩的矩陣W參數(shù)去表示,然后這個(gè)W矩陣是根據(jù)反向傳播信號(hào)是可以學(xué)的。這就是點(diǎn)乘注意力機(jī)制。這個(gè)點(diǎn)乘注意力矩陣就是W。

Model4的方式就是一邊做空間點(diǎn)乘注意力,一邊做時(shí)間點(diǎn)乘注意力,然后再將兩者融合在一起加一個(gè)線性層,作為transformer的多頭注意力機(jī)制的模塊。

總結(jié)

通過(guò)梳理,我們明白了patches的由來(lái)。包括圖片和視頻的patches編碼方式。同時(shí),如何通過(guò)patches構(gòu)建一個(gè)預(yù)訓(xùn)練任務(wù)。對(duì)比GPT預(yù)測(cè)一個(gè)token,圖像的預(yù)訓(xùn)練可以是預(yù)測(cè)一個(gè)patches,然后視頻的話,可以是預(yù)測(cè)一組patches。這樣的預(yù)訓(xùn)練任務(wù)就可以保證生產(chǎn)出的視頻具有連續(xù)性。

因此,可以大膽推測(cè)下,要構(gòu)建一個(gè)sora,應(yīng)該先有一個(gè)圖像預(yù)訓(xùn)練的模型做底座。

參考文獻(xiàn):

1 .Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit and Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ArXiv abs/2010.11929 (2020): n. pag.

2. Arnab, Anurag, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic and Cordelia Schmid. ViViT: A Video Vision Transformer. 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (2021): 6816-6826.

3. He, Kaiming, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollar and Ross B. Girshick. Masked Autoencoders Are Scalable Vision Learners. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 15979-15988.

4. Dehghani, Mostafa, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim M. Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey A. Gritsenko, Mario Luvcic and Neil Houlsby. Patch n Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution. ArXiv abs/2307.06304 (2023): n. pag.

看完覺(jué)得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。

標(biāo)簽:

ad2

推薦內(nèi)容