算力崩塌，是真是假

藍(lán)海情報(bào)網(wǎng) 2025-02-06 13:10:21 963

算力崩塌，是真是假

文 | 謝澤鋒

編輯 | 楊旭然

DeepSeek的開發(fā)成本極低，開源、服務(wù)完全免費(fèi)，這讓山姆·奧特曼和其他AI人工智能的從業(yè)者印象深刻，讓世界首富馬斯克破防，讓瑞·達(dá)利歐對(duì)美股深感擔(dān)憂。

知名投資人木頭姐凱茜·伍德甚至直言：DeepSeek加劇了人工智能的成本崩潰。

神秘的東方力量讓全世界為之側(cè)目，也引發(fā)了中美AI領(lǐng)導(dǎo)地位更替的思考。不過，對(duì)于算力進(jìn)行重新判斷，可能仍然為時(shí)尚早。

當(dāng)前，我國(guó)AI算力部署占全球算力基礎(chǔ)設(shè)施的26%，名列世界第二。在算力即國(guó)力的思潮下，東數(shù)西算等數(shù)字基礎(chǔ)設(shè)施工程正積極進(jìn)行。

DeepSeek顛覆了固有的大力出奇跡的大模型性能提升路徑，短期內(nèi)對(duì)算力需求預(yù)期會(huì)出現(xiàn)大幅下降。但長(zhǎng)期來看，算力部署仍然有大規(guī)模需求擴(kuò)張作的基礎(chǔ)。

正在進(jìn)行的超大規(guī)模算力投資，對(duì)于中國(guó)科技產(chǎn)業(yè)來說，仍是一筆巨大的財(cái)富。Deepseek帶來的對(duì)算力成本的大幅節(jié)省，與如今中國(guó)大規(guī)模投入的算力基礎(chǔ)設(shè)施建設(shè)并不沖突。

01 顛覆

DeepSeek的顛覆性創(chuàng)新，在于極致的效率革命。它僅用不到OpenAI十分之一的成本，就達(dá)到了后者最新大模型的性能。

1月20日，DeepSeek 正式發(fā)布DeepSeek-R1模型系列，大模型排行榜Chatbot Arena上，DeepSeek- R1的基準(zhǔn)測(cè)試排名已升至全類別第三，與ChatGPT-4o最新版并駕齊驅(qū)，并在風(fēng)格控制類模型分類中與OpenAI-o1并列頭名。

算力崩塌，是真是假

R1模型雖未公布訓(xùn)練成本，但據(jù)DeepSeekV3技術(shù)報(bào)告，V3模型的訓(xùn)練總計(jì)只需要278.8萬GPU小時(shí)，相當(dāng)于在2048塊H800 (英偉達(dá)特供中國(guó)市場(chǎng)的低配版GPU)集群上訓(xùn)練約2個(gè)月，合計(jì)成本僅557.6萬美金。

有傳言，R1模型的訓(xùn)練成本基本相當(dāng)，但參數(shù)規(guī)模達(dá)到驚人的6710億，這些數(shù)據(jù)都足夠令外界震驚。

作為對(duì)比，GPT-4o模型的訓(xùn)練成本約為1億美元，需要英偉達(dá)GPU量級(jí)在萬塊以上，且是比H800性能更強(qiáng)的H100。

同樣是開源模式的meta Llama 3 系列模型，其訓(xùn)練需要多達(dá)3930萬H100 GPU小時(shí)，DeepSeek的訓(xùn)練成本約相當(dāng)于Llama 3的7%。也有AI大佬表示過，僅DeepSeek-V3級(jí)別的能力就需要接近16000顆GPU的集群。

也就是說，這家中國(guó)初創(chuàng)AI公司僅用不到十分之一的成本，就達(dá)到了世界一流水平。

這種顛覆性的成本優(yōu)勢(shì)，極有可能改變過往高投入、高算力的研發(fā)路徑，市場(chǎng)對(duì)算力硬件需求持續(xù)高增長(zhǎng)的預(yù)期或產(chǎn)生動(dòng)搖。

四兩撥千斤的能力源于其自研的MLA和MOE架構(gòu)，為其自身的模型訓(xùn)練成本下降起到了關(guān)鍵作用。

此外，R1模型使用數(shù)據(jù)蒸餾技術(shù)（Distillation），通過一系列算法和策略，將原始復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉，從而得到更為精煉、更為有用的數(shù)據(jù)，提升訓(xùn)練效率。

模型蒸餾可以通過訓(xùn)練小型模型模仿大型模型，廣泛應(yīng)用于提高AI效率與降低成本。比喻來說，DeepSeek相當(dāng)于通過更高效的學(xué)習(xí)方法獲得了優(yōu)異分?jǐn)?shù)，而OpenAI還在搞題海戰(zhàn)術(shù)。

算力崩塌，是真是假