文 / 一燈
過年這陣子最火熱的話題,恐怕要數(shù)《哪吒2》和DeepSeek。
一個(gè)是中國(guó)古代神話傳說人物,另一個(gè)是AI領(lǐng)域的后起之秀。本來八竿子打不著的兩家,卻在這個(gè)春節(jié)意外地相映成趣。
圖源:DeepSeek官網(wǎng)
不少人這陣子可能一直有在關(guān)注DeepSeek的進(jìn)展,也包括那83個(gè)小時(shí)的保衛(wèi)戰(zhàn)。當(dāng)他們坐在電影院,看到十二金仙對(duì)龍族的爭(zhēng)議,看到捕妖隊(duì)抓無辜妖眾去煉丹,看到龍族退無可退后的反擊,心中或許會(huì)十分感慨:果然藝術(shù)來源于生活,而生活更加殘酷且沒有道理。
所以,盡管已經(jīng)有不少媒體報(bào)道過了DeepSeek,但《節(jié)點(diǎn)財(cái)經(jīng)》在這里還是想再講一講自己所看到的DeepSeek,以及該公司模型以外的事。
01 繞過三座山,打開AI新世界這陣子有關(guān)DeepSeek公司和旗下AI大模型的介紹已有很多,因此這里我們不再贅述其成績(jī),就簡(jiǎn)單聊一聊它對(duì)行業(yè)的一些啟示。
首先,可以繞過算力,用算法彎道超車。
以往,大家普遍認(rèn)為算力是AI的核心,發(fā)展AI就是要不斷的堆算力、堆GPU。
而就在大家燒錢堆算力的時(shí)候,DeepSeek選擇燒腦改算法。
MLA(多頭潛在注意力機(jī)制)技術(shù)大幅降低了長(zhǎng)文本推理成本,MoE(混合專家模型)創(chuàng)新解決了路由崩潰難題,多令牌預(yù)測(cè)(MPT)顯著提升推理速度,這三大創(chuàng)新分別針對(duì) Transformer 架構(gòu)中的不同瓶頸,成為DeepSeek能夠以小博大的關(guān)鍵所在。
這里舉個(gè)簡(jiǎn)單的例子,傳統(tǒng)的大模型就好比一家擁有眾多服務(wù)員和廚師的餐廳,每個(gè)服務(wù)員從頭到尾獨(dú)立負(fù)責(zé)自己客人的記菜單、傳菜、結(jié)賬、清潔等工作。當(dāng)復(fù)雜的菜品出現(xiàn)時(shí),全部廚師都圍上來討論誰能做、怎么做。
這就可能會(huì)出現(xiàn)多個(gè)服務(wù)員重復(fù)記錄相同訂單、傳菜時(shí)堵在廚房門口、廚師資源浪費(fèi)等重復(fù)勞動(dòng)和效率低下的問題。
而在DeepSeek的模型設(shè)計(jì)中,MLA技術(shù)讓所有服務(wù)員共享一個(gè)智能平板,能實(shí)時(shí)同步訂單、桌號(hào)、菜品狀態(tài)(省去重復(fù)記錄);上菜時(shí),只有負(fù)責(zé)上菜的服務(wù)員工作,其他人在需要時(shí)才會(huì)介入(按需分工)。這樣既能更快地完成任務(wù),又能保證每部分任務(wù)的完成質(zhì)量。
同時(shí),多令牌預(yù)測(cè)能讓服務(wù)員在顧客點(diǎn)主菜后,立馬建議甜點(diǎn)和飲料,提前準(zhǔn)備服務(wù),而不是等顧客一個(gè)個(gè)點(diǎn)完,從而使服務(wù)更加流暢、體驗(yàn)更好。
MoE模型則清楚每個(gè)廚師都擅長(zhǎng)的菜系,在面對(duì)復(fù)雜的菜品時(shí),模型能夠根據(jù)菜品的特點(diǎn),智能地將其分配給最合適的廚師處理,從而提高處理效率,減少不必要的資源浪費(fèi)。
這些創(chuàng)新技術(shù)與架構(gòu)的運(yùn)用,讓DeepSeek-R1的預(yù)訓(xùn)練在2048塊英偉達(dá)H800 GPU(性能受限版本)集群上就能完成,費(fèi)用只有557.6萬美元。而OpenAI等企業(yè)訓(xùn)練模型,則需要數(shù)千乃至上萬塊Nvidia A100、H100等頂級(jí)顯卡,動(dòng)輒數(shù)億美元的訓(xùn)練成本。
可見,當(dāng)AI行業(yè)普遍沉迷于算力軍備競(jìng)賽時(shí),DeepSeek的出圈證明:與其瘋狂堆服務(wù)器,不如優(yōu)化算法結(jié)構(gòu),針對(duì)技術(shù)瓶頸實(shí)施靶向治療,才能讓大模型甩掉"耗電怪獸"的帽子,開啟低成本高性能的新紀(jì)元。
其次,可以繞過通用,從垂直場(chǎng)景切入。
根據(jù)DeepSeek公布的跑分?jǐn)?shù)據(jù)顯示,DeepSeek-R1在培訓(xùn)后階段大規(guī)模使用強(qiáng)化學(xué)習(xí)技術(shù),在數(shù)學(xué)、代碼、自然語言推理和其他任務(wù)上,其性能可與OpenAI o1正式版本媲美,而價(jià)格僅為o1的3%。
圖源:DeepSeek
但這并不意味著DeepSeek-R1超越了OpenAI o1,畢竟OpenAI優(yōu)先追求的是通用智能,投入大量資金人力,想要的是全能通才的效果。國(guó)內(nèi)企業(yè)開發(fā)AI大模型也大都沿用這一思路,希望自家大模型沒有什么明顯的能力短板,快速達(dá)到可商用水平。
而DeepSeek選擇從垂直場(chǎng)景切入,先追求在部分領(lǐng)域(如數(shù)學(xué)、代碼)的表現(xiàn)更優(yōu),再逐步分階段完善其他領(lǐng)域的能力。這是一種能夠快速成長(zhǎng)和建立差異化優(yōu)勢(shì)的發(fā)展策略。
值得一提的是,文心一言作為扎根于中國(guó)市場(chǎng)的大語言模型,根據(jù)百度官方的介紹,在多項(xiàng)中文評(píng)測(cè)中,文心一言4.0的表現(xiàn)已經(jīng)超越了目前最強(qiáng)的GPT-4模型。這意味著在理解和生成中文內(nèi)容方面,文心一言也已成為了全球最頂尖的AI模型之一。
因此,《節(jié)點(diǎn)財(cái)經(jīng)》認(rèn)為,中國(guó)AI企業(yè)尤其是創(chuàng)業(yè)公司,不必都扎堆死磕全能大模型,可選擇垂直場(chǎng)景靶向爆破:這樣既能規(guī)避與通用模型的算力絞殺戰(zhàn),又能通過構(gòu)建起數(shù)據(jù)護(hù)城河,進(jìn)而在細(xì)分領(lǐng)域闖出一片天。
最后是,可以繞過商業(yè),堅(jiān)持對(duì)技術(shù)求索。
這次DeepSeek之所以能引起這么大的轟動(dòng),除了模型本身表現(xiàn)優(yōu)異、開發(fā)和訓(xùn)練成本大幅降低,還有較為重要的一點(diǎn)是,DeepSeek主張免費(fèi)開源。
要知道,目前比較知名的其他大模型,無論是國(guó)內(nèi)百度的文心一言、華為的盤古大模型,還是海外的OpenAI、Llama等產(chǎn)品,都基于商業(yè)化和競(jìng)爭(zhēng)考量,要么一開始選擇了閉源路線,要么逐漸走向閉源,要么雖宣稱開源,但卻設(shè)立了不少限制,并未做到真正意義上的開源。
相比之下,DeepSeek不僅完全開放代碼,還放出了詳細(xì)的技術(shù)報(bào)告;不僅開源了自己最大的 671B R1 模型,還幫大家蒸餾量化好了 1.5B~70B 多個(gè)尺寸的模型;不僅提供所有的訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本、論文等,還選擇了最寬松的 MIT License 協(xié)議,允許任何人免費(fèi)使用、修改、分發(fā),包括用于商業(yè)用途。
DeepSeek創(chuàng)始人梁文鋒此前談及對(duì)于開源的構(gòu)想是,DeepSeek未來可以只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,其他公司在 DeepSeek的基礎(chǔ)上構(gòu)建To B、To C的業(yè)務(wù)。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。
圖源:湛江發(fā)布微信公眾號(hào)
在《節(jié)點(diǎn)財(cái)經(jīng)》看來,或許是因?yàn)楸晨壳|量化基金,也或許就是純粹的理想主義,至少從目前來看,DeepSeek團(tuán)隊(duì)重技術(shù)突破多過商業(yè)變現(xiàn),要行業(yè)繁榮不要壟斷優(yōu)勢(shì)。
正如英偉達(dá)高級(jí)研究科學(xué)家Jim Fan評(píng)論的那樣:我們生活在這樣一個(gè)時(shí)代,一家非美國(guó)公司正在讓OpenAI的初衷得以延續(xù),即做真正開放、為所有人賦能的前沿研究。
02 明槍與暗箭,暴露了誰在心虛1月28日,多位美國(guó)官員指出,DeepSeek是偷竊,正對(duì)其影響開展國(guó)家安全調(diào)查。隨后,部分國(guó)家和組織也開始重點(diǎn)關(guān)注DeepSeek:
● 愛爾蘭數(shù)據(jù)保護(hù)委員會(huì)向DeepSeek發(fā)出信函,要求其提供有關(guān)如何處理愛爾蘭公民數(shù)據(jù)的詳細(xì)信息;
● 意大利數(shù)據(jù)保護(hù)機(jī)構(gòu)也采取了類似措施,他們認(rèn)為DeepSeek對(duì)意大利數(shù)百萬人數(shù)據(jù)造成風(fēng)險(xiǎn),DeepSeek需要在20天時(shí)間里作出回應(yīng);
● 歐洲消費(fèi)者組織還認(rèn)為,DeepSeek在保護(hù)和限制未成年人方面的做法還不夠健全,從年齡驗(yàn)證到未成年人數(shù)據(jù)處理都沒有明確的強(qiáng)制執(zhí)行方案;
......
而據(jù)彭博社報(bào)道,近期OpenAI與微軟展開了一項(xiàng)聯(lián)合調(diào)查,針對(duì)DeepSeek去年使用OpenAI API接口的賬戶進(jìn)行審查,并以涉嫌違反服務(wù)條款的模型蒸餾為由,取消了他們的訪問權(quán)限。
在國(guó)內(nèi)輿論場(chǎng),也有一些所謂的極客開始對(duì)DeepSeek的技術(shù)細(xì)節(jié)發(fā)起攻擊,聲稱DeepSeek涉嫌抄襲或技術(shù)不透明,并試圖通過論文和數(shù)據(jù)來證明這一點(diǎn)。
當(dāng)然,以美國(guó)為首的西方國(guó)家在意的不止DeepSeek。
華爾街日?qǐng)?bào)日前曾發(fā)布報(bào)道《It’s Not Just DeepSeek. A Guide to the Chinese AI Companies You Need to Know》,提醒美國(guó)人要注意哪些中國(guó)大模型公司,并著重指出,百度在中國(guó)最早推出面向公眾的生成式AI文心一言,如今已經(jīng)擁有4.3億用戶。
圖源:華爾街日?qǐng)?bào)
如果說這些明面上的指控是真是假還有待查證,不能認(rèn)為是西方國(guó)家在刻意抹黑、打壓、搞認(rèn)知戰(zhàn),但在1月25日~29日期間,DeepSeek服務(wù)器集群莫名受到每秒超過2.3億次DDos惡意請(qǐng)求,攻擊總量相當(dāng)于整個(gè)歐洲三天的網(wǎng)絡(luò)流量總和。
據(jù)了解,為了保護(hù)DeepSeek,360安全響應(yīng)中心第一時(shí)間拉響警報(bào),鎖定攻擊特征碼;華為云啟動(dòng)流量清洗系統(tǒng),為服務(wù)器搭建防護(hù)盾不到12小時(shí)就確定了攻擊源頭全部來自美國(guó),并予以反擊。
與此同時(shí),網(wǎng)易雷火的游戲服務(wù)器陣列緊急轉(zhuǎn)換為流量緩沖池;大華股份用AI識(shí)別0.00017%的真實(shí)用戶,菜鳥網(wǎng)絡(luò)貢獻(xiàn)物流算法優(yōu)化帶寬,釘釘開通緊急通訊確保指揮暢通......阿里云、??低暋⑻┥皆?、新華三等企業(yè)也都紛紛加入DeepSeek保衛(wèi)戰(zhàn),貢獻(xiàn)自己的力量。
1月29日晚8點(diǎn),經(jīng)過83個(gè)小時(shí)的鏖戰(zhàn),中國(guó)互聯(lián)網(wǎng)企業(yè)成功將攻擊流量壓制97.2%,捍衛(wèi)住了DeepSeek和中國(guó)AI產(chǎn)業(yè)尊嚴(yán)。
然而,這場(chǎng)中美AI角力下的網(wǎng)絡(luò)安全保衛(wèi)戰(zhàn)只是一個(gè)開始。據(jù)奇安信XLab實(shí)驗(yàn)室監(jiān)測(cè)發(fā)現(xiàn),1月30日凌晨,針對(duì)DeepSeek(深度求索)線上服務(wù)的攻擊烈度突然升級(jí),其攻擊指令較1月28日暴增上百倍。
并且,至少有2個(gè)Mirai變種僵尸網(wǎng)絡(luò)參與攻擊,分別為HailBot和RapperBot。此次攻擊共涉及16個(gè)C2服務(wù)器的118個(gè)C2端口,分為2個(gè)波次,分別為凌晨1點(diǎn)和凌晨2點(diǎn)。
部分攻擊指令詳情 圖源:奇安信
說好的公平競(jìng)爭(zhēng)、創(chuàng)新取勝,結(jié)果是明槍暗箭、防不勝防。
說實(shí)話,盡管DeepSeek在模型本身和創(chuàng)新路徑上確有成績(jī),但遠(yuǎn)沒有達(dá)到超越OpenAI、算法封神的地步。畢竟算力才是大模型可持續(xù)發(fā)展的必要條件,也是我們的短板,盡管DeepSeek找到了一些優(yōu)化算力使用的方法,但這并不意味著算力需求變得可有可無。
因此,在《節(jié)點(diǎn)財(cái)經(jīng)》看來,DeepSeek的出現(xiàn),還算不上是技術(shù)上的革命性突破,更多的是讓大家開始重新思考如今AI領(lǐng)域的基礎(chǔ)研究角度、商業(yè)層面的既有模式。但當(dāng)下,DeepSeek卻得到了全球熱度,無所不用其極的圍剿,不亞于當(dāng)年對(duì)付華為。
這樣的氛圍中,心虛的是誰?帶節(jié)奏的是誰?想要霸權(quán)永固的又是誰?其實(shí)不言而喻。
總結(jié)DeepSeek就像是初露鋒芒的哪吒,也是純粹的理想主義者,正試圖以技術(shù)突破打破封鎖,用開源生態(tài)重構(gòu)行業(yè)規(guī)則。
未來,DeepSeek能走多遠(yuǎn)、能開源多久尚未可知,但這想要改變AI世界的想法,當(dāng)下也足以令人興奮。
畢竟,因?yàn)槲覀兌继贻p,不知道天高地厚。
看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。