算力集群Scaling Law(尺度規(guī)律)還奏效么?萬卡級智算集群還是全球AI大模型競爭的“入場券”么?十萬卡智算集群仍然是算力備戰(zhàn)的目標么?
今年年初,DeepSeek-V3訓練只使用了2048張H800GPU的消息傳出,像一顆核彈,給長期信奉規(guī)模取勝的智能算力市場帶來了不小的震憾。智算行業(yè)曾經堅信不移的Scaling Law——智算集群規(guī)模將沿著千卡、萬卡、十萬卡順序部署的路線,也因此產生了動搖。但幾個月過去,記者發(fā)現(xiàn),DeepSeek的出現(xiàn)的確給算力芯片市場帶來了不小的變化,但業(yè)界對尺度規(guī)律的認可度仍然堅挺。
推理算力市場迎猛增
毫無疑問,DeepSeek給推理芯片和推理算力市場注入了一針強心劑。
某業(yè)內人士表示,2024年,多地建設的智算中心普遍存在空置的現(xiàn)象。但在DeepSeek發(fā)布后,各地算力中心資源的利用率實現(xiàn)了大幅提升。
圖片來源:2025 中國人工智能計算力發(fā)展評估報告
市場分析機構發(fā)布數(shù)據(jù)顯示,中國人工智能服務器工作負載中,推理算力的占比將在未來幾年大幅增長,預計到 2028 年中國推理算力的市場份額將從2024年的65%增長到73%。
浪潮高級副總裁劉軍也表示 :“在 DeepSeek 發(fā)布后,推理算力的需求量正在迅速超過訓練算力,市場結構發(fā)生了根本性變化。”
感受到市場需求的牽引,多家國產算力芯片公司今年將業(yè)務發(fā)展重點放在了推理領域。例如,今年2月,燧原宣布其慶陽智算中心部署的萬卡集群為美圖AI推理業(yè)務提供算力;今年3月,沐曦科技宣布聯(lián)合清華大學KVCache.AI團隊加速DeepSeek滿血版單卡C500異構推理等。
但截至目前,推理市場實際上并不存在對“真萬卡集群”的剛需。根據(jù)阿里研究院副院長安筱鵬的理解,只有一萬張AI加速卡部署在同一個數(shù)據(jù)中心,并且能通過大規(guī)模資源調度技術,讓萬卡作為“一臺”計算機,支持單一模型在一萬張卡上同時進行訓練,才能被認為是“真萬卡集群”。但推理任務更多是分布式實現(xiàn)的,其算力規(guī)模需求遠低于萬卡。[XZ1]
規(guī)模定律仍在訓練領域奏效
“大模型本地部署有望成為國產算力芯片的重要增長拉動力?!?聯(lián)通元景大模型負責人在接受《中國電子報》記者采訪時如是說。
DeepSeek之所以能撬動巨大的推理算力市場,本質上得益于其底層基礎模型V3的高質量訓練。而強大的算力,是支撐該模型乃至后續(xù)其他模型迭代的基礎。
聯(lián)通云相關負責人介紹,大模型參數(shù)規(guī)模從千億級邁向萬億級,訓練數(shù)據(jù)量也呈指數(shù)級增長。大規(guī)模訓練集群能夠通過并行計算和分布式處理,顯著縮短訓練周期,為模型快速迭代提供基礎設施支撐。但從當前的情況來看,萬卡集群在訓練效率上已經不足以支持大模型的迭代速度。而十萬卡集群,能夠通過更高并行度和分布式優(yōu)化,在萬卡集群基礎上實現(xiàn)訓練效率的再度提升。
但建設大規(guī)模訓練集群,仍存在諸多待解的技術問題。多地域部署、多芯混訓、集群穩(wěn)定性都給集群建設帶來了挑戰(zhàn)。集群穩(wěn)定性要求高,快速容錯和恢復是關鍵;能耗與散熱、數(shù)據(jù)管理和運維管理等問題同樣重要——集群每日能耗甚至將高達300萬千瓦時,與一個小型機械廠一年的用電量相當。
在中國聯(lián)通相關業(yè)務人員看來,綜合考慮企業(yè)需求、行業(yè)應用和區(qū)域分布,中國可能需要3—5個“真十萬卡集群”,這些集群應具備高效能、低能耗、高穩(wěn)定性的特點,并支持多任務并發(fā)和動態(tài)資源調度,以最大化算力利用率。
雙重路線競爭
可以預見,未來的算力集群部署,將以訓練與推理為界,形成巨大分野,呈現(xiàn)出“雙軌并行”新格局:
一方面,頭部企業(yè)持續(xù)加碼超大規(guī)模集群,集中力量實現(xiàn)訓練性能突破。
調度方面,百度、騰訊等企業(yè)開發(fā)了面向超大集群的自動切分、任務容錯系統(tǒng);能源管理上,液冷、浸沒式等新型冷卻技術成為數(shù)據(jù)中心標配,PUE(能源利用效率)持續(xù)優(yōu)化;多芯融合層面,一些平臺已實現(xiàn)“國產+進口”GPU、NPU、ASIC的調度統(tǒng)一,個別廠商甚至宣布支持六芯異構協(xié)同訓練。
與此同時,“以訓練反哺調度優(yōu)化”成為技術演進的新方向。通過AI自身參與任務調度、負載均衡,集群可以實現(xiàn)自動化資源編排——這正是AI基礎設施向“智能化操作系統(tǒng)”演進的表現(xiàn)。某種意義上,十萬卡不再只是“計算力的集合”,而是“算力+AI控制力”的系統(tǒng)體。
“十萬卡集群”的比拼,最終將落腳于如何將堆卡用好、用足、用出性價比。
另一方面,各地方、中小企業(yè)在智算賽道的著眼點將轉向算法高效化與推理優(yōu)化。越來越多企業(yè)開始選擇用數(shù)百張卡構建私有化小型訓練集群,結合開源模型做定制化微調。通過模型蒸餾、芯片定制和邊緣算力部署,在特定場景下以更低成本參與競爭,推動AI技術下沉至垂直領域。