AGI是一場(chǎng)生產(chǎn)力的變革。如果說(shuō)大語(yǔ)言模型是蒸汽機(jī),則AGI就是一場(chǎng)工業(yè)革命。在這一新質(zhì)生產(chǎn)力革命進(jìn)程中,技術(shù)是驅(qū)動(dòng)引擎,深入理解技術(shù),才能更好的切到業(yè)務(wù)的蛋糕;就像賽車(chē)手,他知道發(fā)動(dòng)機(jī)引擎的操控邏輯,才能在彎道超車(chē)。
我們先聊技術(shù)范式,再來(lái)談商業(yè)模式。
一、scaling law的真正原因
從小到大,經(jīng)歷無(wú)數(shù)次考試,我們常識(shí)里就知道,判斷對(duì)錯(cuò)題拿分簡(jiǎn)單,瞎選也有一半分;單選題 4選一就難了,需要各個(gè)答案鑒別;如果是十選一那就更難。這個(gè)邏輯是成立的。對(duì)機(jī)器學(xué)習(xí)來(lái)說(shuō)也一樣。從圖像分類(lèi)來(lái)看:如果分十個(gè)類(lèi)別,相當(dāng)于是十選一的單選題;imagenet的數(shù)據(jù)集是1000個(gè)類(lèi)別,就是1000中選一個(gè)了。而大語(yǔ)言模型是多少呢?他是從十萬(wàn)多的詞匯表中選一個(gè)最可能的token,分類(lèi)數(shù)增加一個(gè),他的難度都是指數(shù)級(jí)增長(zhǎng)。從數(shù)學(xué)概率論的視角來(lái)看,就是softmax 回歸的shape越大,需要指數(shù)級(jí)增加的數(shù)據(jù)集樣本才能訓(xùn)練充分;因?yàn)闂l件概率分布P(Ai|(A1A2……A十萬(wàn),輸入text)中,A的個(gè)數(shù)增加,則輸入的text 和 A的組合數(shù)就指數(shù)增加的。需要用大數(shù)據(jù)量來(lái)一一計(jì)算概率,才能排除掉其他可能,得到真主Ai。
為了得到這樣規(guī)模的完全分布,里面的數(shù)理邏輯的表達(dá)是比較復(fù)雜的,因此需要大模型參數(shù),參數(shù)越大,他能表達(dá)的數(shù)學(xué)邏輯就越多;同時(shí)需要大數(shù)據(jù)量來(lái)提供完全分布,才可以訓(xùn)練充分。為了尋找達(dá)到這一目的的路徑,openai 這幫人就發(fā)現(xiàn),只要是transformer,寬度和深度不需要設(shè)計(jì)排列組合,參數(shù)量差不多的話(huà),model能表達(dá)的數(shù)學(xué)邏輯是基本一樣的。因此就省心去找更合適的模型架構(gòu)了。直接暴力增加深度,增大數(shù)據(jù)集,就完成了這一巨大任務(wù):從十萬(wàn)個(gè)選項(xiàng)中選一個(gè)真主答案的選擇題任務(wù)。
二、Sora離真正的text2video的GPT4時(shí)刻究竟差多遠(yuǎn)
我們來(lái)基本預(yù)估下text2video需要多大規(guī)模的訓(xùn)練集。之前分析過(guò)
Sora技術(shù)6:深入谷歌videopoet理解全模態(tài)視頻生成
經(jīng)典圖像分類(lèi)工程中,imagenet數(shù)據(jù)集,共1000個(gè)類(lèi)別,你可以認(rèn)為是token的Codebook是1000 的size,然后總數(shù)據(jù)集是128萬(wàn),合每個(gè)類(lèi)別1300張圖片的樣子。這個(gè)類(lèi)比的意思是,一個(gè)token的全分布概率計(jì)算,需要1300個(gè)樣例來(lái)統(tǒng)計(jì)。
GPT1的詞典大小是40,478 個(gè),GPT-2的詞典大小為50257個(gè),因此詞典差別不是很大,那么我們姑且假定GPT4的詞典大小為6萬(wàn),他的數(shù)據(jù)集呢,是13萬(wàn)億個(gè) token,也就是每個(gè)token有2億個(gè)樣例來(lái)計(jì)算全分布概率才能達(dá)到GPT4的效果。
Videopoet的Codebook大小是27萬(wàn),詞典過(guò)大,會(huì)造成embedding matrix巨大,會(huì)帶來(lái)存儲(chǔ)和時(shí)間的復(fù)雜度。因此,短期內(nèi)視頻生成任務(wù)不能達(dá)到GPT4的水平的,因?yàn)镃odebook過(guò)大了。一個(gè)類(lèi)比計(jì)算就是:
Codebook size 1000的時(shí)候,需要1300個(gè)樣例來(lái)算全分布。
Codebook size 60000的時(shí)候,需要2億個(gè)樣例來(lái)算全分布。是1300的15萬(wàn)倍。而Codebook size 只是變大了60倍。也就是膨脹比是2300倍。
Codebook size 27萬(wàn)的時(shí)候,那么他是6萬(wàn)的4.3倍,需要多少token?那就是4.3*2300*2億。這么龐大的數(shù)據(jù)量是沒(méi)法計(jì)算的。
因此,可以毫不夸張的說(shuō),sora放出來(lái)的demo,只是一個(gè)局部分布訓(xùn)練到了一個(gè)小局部最優(yōu)解(鞍點(diǎn))上的某個(gè)角落而已,他還不能達(dá)到全分布的局部最優(yōu)解。也就是說(shuō)sora只是在幾個(gè)案例上能合成優(yōu)秀視頻,如果真的洪泛攻擊散開(kāi)了讓大眾隨意測(cè)試,基本不可能達(dá)到chatGPT的能力的。
解決這一難題,一方面需要scalaing law,這是最土的方法;另一方面核心的是降低codebook的size。這是邁向AGI的關(guān)鍵一步。
三、落地究竟有多難?通用和垂類(lèi):兩片水域
只要是通用大模型,不管他刷了多少數(shù)據(jù)集評(píng)測(cè)榜單,他終究還是一個(gè)實(shí)驗(yàn)室產(chǎn)品,因?yàn)樗?xùn)練的是公開(kāi)數(shù)據(jù)集,公開(kāi)數(shù)據(jù)集本身就存在語(yǔ)義混亂的情況,他就沒(méi)辦法進(jìn)入嚴(yán)肅的職場(chǎng)環(huán)境解決現(xiàn)實(shí)問(wèn)題。Imagenet上的訓(xùn)練的分類(lèi)模型,也不能直接拿來(lái)做工業(yè)視覺(jué)上的缺陷檢測(cè):這個(gè)斑點(diǎn)屬于CPU正常的噪點(diǎn),這個(gè)坑點(diǎn)是CPU制程的缺陷。這就需要重新構(gòu)建真實(shí)數(shù)據(jù)集來(lái)真實(shí)訓(xùn)練一個(gè)分類(lèi)模型才可以。
通用大模型也是這樣的,他離落地的最后一公里是有g(shù)ap的。隨便舉個(gè)例子,如果讓通用大模型來(lái)回答醫(yī)療問(wèn)題,我估計(jì)業(yè)內(nèi)人士都是不放心的。而真實(shí)的業(yè)務(wù)場(chǎng)景就是這樣的。他不是一個(gè)閑聊的助手。他需要嚴(yán)格保證質(zhì)量。
因此,垂類(lèi)模型當(dāng)前緊要解決的問(wèn)題是回答收斂問(wèn)題。其次,還有主動(dòng)發(fā)問(wèn)的情況。就是一個(gè)真實(shí)的醫(yī)生,他是需要主動(dòng)望聞問(wèn)切的,主動(dòng)去挖掘患者的病情,而當(dāng)下的大模型是做不到的。因此垂類(lèi)大模型就是需要緊密結(jié)合業(yè)務(wù)另尋出路。
四、為什么需要自主訓(xùn)練垂類(lèi)大模型
基座是所有codebook的全量數(shù)據(jù)分布,由于公開(kāi)數(shù)據(jù)集里存在許多糟粕,例如科大訊飛那次學(xué)習(xí)機(jī)事件,本質(zhì)是他的底座訓(xùn)練集中出現(xiàn)了很多敵對(duì)意識(shí)形態(tài)的數(shù)據(jù);他基座訓(xùn)練過(guò)程中吃進(jìn)去的數(shù)據(jù),得到的就是一個(gè)codebook的全量分布;這個(gè)全量分布底座歪了,在他基礎(chǔ)上長(zhǎng)出來(lái)的應(yīng)用,或多或少,時(shí)不時(shí)會(huì)冒出一些古怪輸出。
因此,我們需要訓(xùn)練一個(gè)垂域的底座大模型。這個(gè)大模型怎么訓(xùn)練呢?
第一是降低codebook大小。如果我們是做醫(yī)學(xué)問(wèn)診的,那么,我們肯定不需要代碼codebook的,這些代碼的token就可以摘掉;第二是建一個(gè)大小適中,垂域數(shù)據(jù)充分的數(shù)據(jù)集。我們只有垂域數(shù)據(jù)集,就有可能不能覆蓋整個(gè)數(shù)據(jù)的全分布;只有公開(kāi)數(shù)據(jù)集,就對(duì)垂類(lèi)了解不充分。因此需要綜合考慮。第三個(gè)就是適中的模型大小。做一個(gè)垂類(lèi)大模型,我們就是訓(xùn)練一個(gè)南翔技校的挖掘機(jī)工人,他開(kāi)挖掘機(jī)干活干的又快又好;而不是訓(xùn)練一個(gè)北大的通才,他居廟堂之高則憂(yōu)其民,胸懷世界。
五、LLM裝進(jìn)1080顯卡:迎接百花齊放的垂類(lèi)大模型
成本決定了落地的關(guān)鍵。首先要成本小,模型不能太大;其次把高并發(fā)打起來(lái)。這個(gè)也是降低落地成本的。
最關(guān)鍵的是,每個(gè)行業(yè)每個(gè)角落都需要有一個(gè)專(zhuān)門(mén)干這一個(gè)活的垂類(lèi)大模型。真正落地的大模型不是操作系統(tǒng),他不需要大而全;他要的是小而精,在這個(gè)領(lǐng)域上,他的知識(shí)面非常精準(zhǔn),能閉環(huán)解決問(wèn)題,
比如說(shuō)在智能汽車(chē)座艙領(lǐng)域,他可以很精準(zhǔn)的回答汽車(chē)的操控指南;例如,他可以回答兒童鎖在哪里操作,這個(gè)每個(gè)車(chē)都不一樣的,通用大模型是回答不了的。
然后是降低功耗。功耗太大,推理需要4090是不合適的。4090近500w功耗,太燒電。還需要更低成本部署。哪天1080這樣的老顯卡也能跑了,行業(yè)就是春天了。
總結(jié)
真正的商業(yè)模式,得深耕一個(gè)垂域,在這個(gè)垂域訓(xùn)練自己的大模型,算法效果上能做到閉環(huán)。然后降低部署成本,才能真正是掙錢(qián)的新質(zhì)生產(chǎn)力。
目前來(lái)看,text2video還不足以達(dá)到商業(yè)化產(chǎn)品的標(biāo)準(zhǔn)。離真正落地還有困難的。然后這個(gè)方向的科研任務(wù)還很重,短期一年內(nèi)看不到類(lèi)似GPT4的產(chǎn)品出現(xiàn)。
一家之言。
看完覺(jué)得寫(xiě)得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。
標(biāo)簽: 模型 數(shù)據(jù) 訓(xùn)練 隨筆