DeepSeek顛覆了什么？——大模型“國(guó)產(chǎn)之光”破局的啟示

作者：集小微 02-07 11:11

來(lái)源：新華網(wǎng) #DeepSeek# #低成本# #AI創(chuàng)新#

一家人工智能初創(chuàng)企業(yè)淺淺扇動(dòng)兩下翅膀，即掀起全球科技界的一陣“海嘯”。

短短30天，中國(guó)初創(chuàng)企業(yè)深度求索（DeepSeek）先后發(fā)布兩款性能比肩GPT-4o的大模型，“1/18的訓(xùn)練成本、1/10的團(tuán)隊(duì)規(guī)模、不分伯仲的模型性能”令硅谷大受震撼。

最新一期《經(jīng)濟(jì)學(xué)人》封面文章第一時(shí)間讓位給這一土生土長(zhǎng)的國(guó)產(chǎn)大模型：《低成本中國(guó)模型的成功動(dòng)搖美國(guó)科技優(yōu)勢(shì)》。很快，華爾街也同樣感受到了這種被動(dòng)搖的震感。

事實(shí)上，這匹黑馬的貢獻(xiàn)絕非“低成本”這一個(gè)標(biāo)簽所能概括。它不僅重新定義了大模型的生產(chǎn)函數(shù)，還將重新定義計(jì)算。

不論開源與閉源未來(lái)的優(yōu)勢(shì)如何，這股沖擊波都將迫使全球科技界重新思考：當(dāng)“規(guī)模定律”與“生態(tài)壁壘”不再絕對(duì)，什么才是下一賽季AI競(jìng)爭(zhēng)的核心？或許我們能從中獲得新的啟示。

擊穿三大定式

1月下旬，DeepSeek在中區(qū)、美區(qū)蘋果App Store下載榜單中登頂，超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發(fā)的模型產(chǎn)品。具體而言，它顛覆了什么？

——打破“越強(qiáng)越貴”的成本詛咒

價(jià)格感人是讓DeepSeek快速出圈的第一個(gè)標(biāo)簽。DeepSeek-R1的API服務(wù)定價(jià)為每百萬(wàn)輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬(wàn)輸出tokens 16元，而o1模型上述三項(xiàng)服務(wù)的定價(jià)分別是55元、110元、438元。

凡是使用過(guò)幾款大模型的用戶很快就能形成這樣一個(gè)共識(shí)：就推理能力而言，DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型，甚至在回答問(wèn)題之前還能給出它的推理過(guò)程和思考鏈路。AI投資機(jī)構(gòu)Menlo Ventures負(fù)責(zé)人Deedy對(duì)比谷歌Gemini和DeepSeek-R1后表示，DeepSeek-R1更便宜、上下文更長(zhǎng)、推理性能更佳。低成本比肩o1模型，令硅谷的“燒錢模式”一時(shí)間遭到猛烈質(zhì)疑。

然而在過(guò)去，大模型服務(wù)是標(biāo)準(zhǔn)的“一分錢一分貨”，想要用上更優(yōu)性能的產(chǎn)品必須支付更高昂的費(fèi)用，以覆蓋整個(gè)模型訓(xùn)練過(guò)程中更高算力成本的支出。

——超越“性能-成本-速度”的不可能三角

當(dāng)硅谷仍在為GPU萬(wàn)卡集群豪擲千億資金時(shí)，一群土生土長(zhǎng)的中國(guó)年輕人用557.6萬(wàn)美元證明：AI大模型的比拼或許并不只靠規(guī)模，更重要的是看實(shí)際效果。有句話形象地概括出DeepSeek的優(yōu)勢(shì)：“不是GPT用不起，而是DeepSeek更具性價(jià)比?！?/p>

傳統(tǒng)模型訓(xùn)練，需要在性能、成本、速度之間權(quán)衡，其高性能的獲得，需要極高的成本投入、更漫長(zhǎng)的計(jì)算時(shí)間。而DeepSeek重構(gòu)了大模型的“成本-性能”曲線，同時(shí)壓縮了計(jì)算周期。

根據(jù)DeepSeek技術(shù)報(bào)告，DeepSeek-V3模型的訓(xùn)練成本為557.6萬(wàn)美元，訓(xùn)練使用的是算力受限的英偉達(dá)H800 GPU集群。相比之下，同樣是開源模型的Meta旗下Llama-3.1模型的訓(xùn)練成本超過(guò)6000萬(wàn)美元，而OpenAI的GPT-4o模型的訓(xùn)練成本為1億美元，且使用的是性能更加優(yōu)異的英偉達(dá)H100 GPU集群。而使用過(guò)程中，DeepSeek給出反饋的時(shí)長(zhǎng)也大部分控制在5秒至35秒之間，通過(guò)算法輕量化、計(jì)算效率最大化、資源利用率優(yōu)化，成功壓縮了計(jì)算時(shí)間，降低了延遲。

——走出“參數(shù)膨脹”陷阱

ChatGPT橫空出世后700多天里，全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學(xué)”路線，參數(shù)越“煉”越大，給算力、數(shù)據(jù)、能耗帶來(lái)了極大壓力。很長(zhǎng)一段時(shí)間，參數(shù)幾乎成為大模型廠商比拼的最大焦點(diǎn)。

而另辟蹊徑的DeepSeek恰巧處于對(duì)角線的另一端：并不盲目追求參數(shù)之大，而是選擇了一條通過(guò)探索更高效訓(xùn)練方法以實(shí)現(xiàn)性能提升的“小而精”路線，打破了“參數(shù)膨脹”的慣性。

例如DeepSeek-R1（4B參數(shù)）在數(shù)學(xué)推理、代碼生成等任務(wù)上具有比肩70B參數(shù)模型（如Llama-2）的能力，通過(guò)算法優(yōu)化、數(shù)據(jù)質(zhì)量提升，小參數(shù)模型一樣能實(shí)現(xiàn)高性能，甚至能夠“四兩撥千斤”。

實(shí)現(xiàn)三大躍升

“DeepSeek出圈，很好地證明了我們的競(jìng)爭(zhēng)優(yōu)勢(shì)：通過(guò)有限資源的極致高效利用，實(shí)現(xiàn)以少勝多。中國(guó)與美國(guó)在AI領(lǐng)域的差距正在縮小。”面壁智能首席科學(xué)家劉知遠(yuǎn)說(shuō)。

算力封鎖下的有力破局，得益于DeepSeek技術(shù)架構(gòu)、數(shù)據(jù)策略、工程實(shí)踐三方面的關(guān)鍵突破。

——技術(shù)架構(gòu)：重新定義參數(shù)效率

大模型的千億參數(shù)不應(yīng)是冰冷的數(shù)字堆砌，而應(yīng)是巧奪天工般地重組整合。

傳統(tǒng)大模型Transformer架構(gòu)好比一條承載車輛的高速公路，當(dāng)車輛（數(shù)據(jù)）數(shù)量足夠多的時(shí)候，每輛車必須和前后所有車溝通完成才能繼續(xù)行駛（計(jì)算），導(dǎo)致堵車（計(jì)算慢、能耗高）。而DeepSeek創(chuàng)新的架構(gòu)則把一條串行的高速路，變成了一個(gè)輻射狀的快遞分揀中心，先把貨物（數(shù)據(jù)）按類型分類打包，再分不同路線同時(shí)出發(fā)開往不同目的地，每輛貨車（計(jì)算）只需選擇最短路徑。因此既能提高速度又能節(jié)約能耗。

——數(shù)據(jù)策略：質(zhì)量驅(qū)動(dòng)的成本控制

DeepSeek研發(fā)團(tuán)隊(duì)相信，用“煉數(shù)據(jù)”取代“堆數(shù)據(jù)”，能使訓(xùn)練更具效率。

傳統(tǒng)的數(shù)據(jù)策略好比去農(nóng)場(chǎng)隨便采撿，常有價(jià)值不高的爛菜葉（低質(zhì)量數(shù)據(jù)）。而DeepSeek創(chuàng)新的數(shù)據(jù)蒸餾技術(shù)，有針對(duì)性地篩選掉質(zhì)量不高的爛菜葉：一方面自動(dòng)識(shí)別高價(jià)值數(shù)據(jù)片段（如代碼邏輯推理鏈），相比隨機(jī)采樣訓(xùn)練效率提升3.2倍，另一方面通過(guò)對(duì)抗訓(xùn)練生成合成數(shù)據(jù)，將高質(zhì)量代碼數(shù)據(jù)獲取成本從每100個(gè)tokens的0.8元降低至0.12元。

——工程實(shí)踐：架起“超級(jí)工廠”流水線

大模型傳統(tǒng)的訓(xùn)練方式好比手工造車，一次只能裝配一臺(tái)，效率低下。而DeepSeek的3D并行相當(dāng)于一方面通過(guò)流水線并行把造車流程拆分為10個(gè)步驟，同時(shí)組裝10輛車（數(shù)據(jù)分塊處理），另一方面通過(guò)張量并行，把發(fā)動(dòng)機(jī)拆成零件，分給10個(gè)工廠同時(shí)生產(chǎn)（模型分片計(jì)算）。

至于推理過(guò)程，傳統(tǒng)模型好比現(xiàn)點(diǎn)現(xiàn)做的餐廳，客戶等菜時(shí)間長(zhǎng)，推理過(guò)程慢。而DeepSeek采用的INT4量化，能把復(fù)雜菜品提前做成預(yù)制菜，加熱（計(jì)算）時(shí)間減半，口味損失不到5%，實(shí)現(xiàn)了大模型的低成本工業(yè)化。

超越技術(shù)的啟示

拆解DeepSeek的成功公式不難發(fā)現(xiàn)，通過(guò)底層架構(gòu)創(chuàng)新降低AGI成本，同時(shí)以開源策略構(gòu)建生態(tài)護(hù)城河，提供了中小型機(jī)構(gòu)突破算力限制的可行路徑。此外，我們還能從中得到一些超越技術(shù)的啟示。

一直以來(lái)，驅(qū)動(dòng)DeepSeek的目標(biāo)并非利潤(rùn)而是使命?！疤剿魑粗林场钡脑妇耙仓赶蛞环N與之匹配的極簡(jiǎn)且清爽的組織架構(gòu)。

一名人工智能科學(xué)家表示，在人工智能大模型領(lǐng)域，大廠、高校、傳統(tǒng)科研機(jī)構(gòu)、初創(chuàng)公司在資源稟賦上其實(shí)各有優(yōu)勢(shì)，但結(jié)構(gòu)性的局限很難扭轉(zhuǎn)。DeepSeek這種類型的初創(chuàng)公司能很好地彌補(bǔ)其中的一個(gè)缺位——具有大工程能力、不受制于短視商業(yè)邏輯的創(chuàng)新定力、創(chuàng)業(yè)團(tuán)隊(duì)扁平化組織機(jī)制帶來(lái)的絲滑流暢的協(xié)作度。

據(jù)不具名人士透露，其V3模型的關(guān)鍵訓(xùn)練架構(gòu)MLA就源于一位年輕研究員的個(gè)人興趣，經(jīng)過(guò)研判后DeepSeek組建了專項(xiàng)團(tuán)隊(duì)開展大規(guī)模驗(yàn)證與攻關(guān)。而R1模型果斷調(diào)整強(qiáng)化學(xué)習(xí)路線，領(lǐng)先于其他機(jī)構(gòu)實(shí)現(xiàn)了近似o1的推理能力，核心原因之一也歸功于其青年團(tuán)隊(duì)對(duì)前沿技術(shù)的敏銳嗅覺與大膽嘗試。

“我們創(chuàng)新缺少的不是資本，而是信心，以及組織高密度人才的能力，調(diào)動(dòng)他們高效地進(jìn)行創(chuàng)造力與好奇心驅(qū)動(dòng)的創(chuàng)新。”DeepSeek創(chuàng)始人梁文鋒說(shuō)。

在DeepSeek身上，我們看到了皮克斯動(dòng)畫工作室的影子。這個(gè)年輕的中國(guó)初創(chuàng)企業(yè)與那個(gè)創(chuàng)作27部長(zhǎng)片有19部獲得奧斯卡最佳動(dòng)畫、同樣以創(chuàng)新為鮮明標(biāo)簽的組織，有著不謀而合的組織機(jī)制與范式選擇，以及由此帶來(lái)的高企的創(chuàng)新成功率與人才留存率。

不同于先發(fā)者略顯封鎖的護(hù)城堡壘，DeepSeek贏得贊譽(yù)的還有它的開源路線。將代碼、模型權(quán)重和訓(xùn)練日志全部公開，不僅需要格局，更需要勇氣與實(shí)力。

“在顛覆性技術(shù)面前，閉源形成的護(hù)城河是短暫的。即使OpenAI閉源，也無(wú)法阻止被別人趕超?！绷何匿h這樣解釋選擇開源的原因，“開源、發(fā)論文，其實(shí)并不會(huì)失去什么。對(duì)于技術(shù)人員來(lái)說(shuō)，被follow（追隨模仿）是很有成就感的事?！?/p>

從技術(shù)到愿景，DeepSeek堅(jiān)定選擇的始終是一條難且正確的路。這也是為什么，即便別國(guó)在人工智能領(lǐng)域已坐享先發(fā)優(yōu)勢(shì)，后發(fā)者依然有機(jī)會(huì)憑借技術(shù)創(chuàng)新、成本革命打破大模型競(jìng)爭(zhēng)的傳統(tǒng)邏輯，打破人工智能行業(yè)競(jìng)爭(zhēng)格局，打破“他國(guó)更擅長(zhǎng)從0到1的原始創(chuàng)新，而中國(guó)更擅長(zhǎng)從1到10的應(yīng)用創(chuàng)新”的成見，重塑競(jìng)爭(zhēng)優(yōu)勢(shì)的奧秘。

北京時(shí)間2月1日凌晨，在OpenAI發(fā)布其推理系列最新模型o3-mini時(shí)，我們從中看到了一個(gè)熟悉的字眼：“Deep research”。這是否是國(guó)產(chǎn)之光“被follow”的開端盡管不好斷言，但我們至少身體力行走出了一條“大力出奇跡”之外，另一條具有自主創(chuàng)新基因的制勝之道。

正如梁文鋒此前接受采訪時(shí)所說(shuō)，“中國(guó)要逐步成為貢獻(xiàn)者，而不是一直‘搭便車’。”（記者張漫子）

【責(zé)任編輯:冉曉寧】