裹挾于AI大模型引起引發(fā)GPU熱的宏大敘事中,DPU好像褪卻了往日的光環(huán)。但其實,隨著大模型作為一種新型基礎(chǔ)設(shè)施逐漸普及,AI將賦能千行百業(yè),算力需求爆發(fā)性增長,GPU的火熱也在幫襯DPU,可謂處在同一戰(zhàn)壕的“兄弟連”。
以英偉達H100為例,8顆GPU需要8個網(wǎng)絡(luò)適配器和2顆BlueField3,相當(dāng)于10個DPU。在國內(nèi)市場有數(shù)據(jù)顯示,未來幾年云與數(shù)據(jù)中心領(lǐng)域國內(nèi)服務(wù)器出貨量每年將維持在500萬臺左右,其中DPU滲透率在10%左右,單臺服務(wù)器可以配置一塊到多塊DPU板卡,預(yù)計每年DPU需求量將在100萬片左右。
與算力需求與日俱增的是從智能網(wǎng)卡“進階”而來的DPU,還需全面解鎖卸載CPU算力的新技能,在架構(gòu)、軟件和應(yīng)用層面打持久戰(zhàn)。
DPU成AI大模型時代新支點
自ChatGPT橫空出世掀起國內(nèi)百模大戰(zhàn)以來,拉動算力需求出現(xiàn)爆發(fā)式增長。據(jù)IDC預(yù)計,2021-2026年期間,中國智能算力規(guī)模年復(fù)合增長率達52.3%,預(yù)計到2026年智能算力規(guī)模將進入每秒十萬億億次浮點計算(ZFLOPS)級別,達到1271.4 EFLOPS。
而且,在生成式AI風(fēng)起云涌之際,算力不僅成為新質(zhì)生產(chǎn)力關(guān)鍵,也成為大國博弈的核心競爭力。加之我國東數(shù)西算工程的推進,算力網(wǎng)絡(luò)、算網(wǎng)融合等創(chuàng)新技術(shù)不斷衍生,對異構(gòu)算力芯片也提出了新的挑戰(zhàn)。
中科馭數(shù)高級副總裁張宇認為,算力核心來源將是三U即GPU、CPU、DPU一體,CPU實現(xiàn)通用算力,GPU釋放智能算力,DPU支撐基礎(chǔ)I/O算力,作為CPU的卸載引擎,接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),釋放CPU的算力。尤其是在大模型訓(xùn)練時,多機集群的并行計算需要實時、低時延的數(shù)據(jù)同步,DPU的作用不可或缺。
可以說承載網(wǎng)絡(luò)、存儲、安全和管理控制等功能的DPU,在如日中天的AI大模型時代已成為算力集群的新支點。
業(yè)內(nèi)人士梁宇(化名)也表示,DPU的重要性在于一方面,隨著AI大模型的普及,對于算力需求已經(jīng)達到了2個月就翻一倍的速度,大模型訓(xùn)練參數(shù)在指數(shù)級增長,對于計算能力、內(nèi)存帶寬、網(wǎng)絡(luò)帶寬都帶來極大壓力,DPU可支持100G+高帶寬和大規(guī)模組網(wǎng),提供高效的存儲處理能力,通過支持RDMA(遠程直接內(nèi)存訪問)技術(shù)減少延時和抖動,顯著提高GPU的有效計算,這對于AI大模型的高效訓(xùn)練至關(guān)重要。另一方面,DPU有望極大降低數(shù)據(jù)中心成本,單個高端DPU可提供相當(dāng)于125個CPU內(nèi)核所提供的數(shù)據(jù)中心服務(wù),有望節(jié)約大量支出。
DPU的產(chǎn)業(yè)價值已成共識,尤其是最近加快建設(shè)算力基礎(chǔ)設(shè)施的各種重磅政策和方案接連出臺,全面利好DPU產(chǎn)業(yè)發(fā)展。2023年10月,工信部、中央網(wǎng)信辦、國務(wù)院國資委等六部門2023年10月聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,強調(diào)DPU在提升算力效率、優(yōu)化算力質(zhì)量、促進綠色低碳算力發(fā)展等方面的關(guān)鍵作用。這一政策的出臺,標志著DPU在國家戰(zhàn)略中的地位得到了正式確認。
國內(nèi)GPU廠商在加速攻堅之際,國內(nèi)DPU賽道也站滿了各路玩家,如阿里云、騰訊、字節(jié)跳動等互聯(lián)網(wǎng)巨頭,以及一些DPU創(chuàng)業(yè)公司中科馭數(shù)、星云智聯(lián)、云脈芯聯(lián)、云豹、大禹智芯、益思芯、芯啟源等均在各展神通。
持續(xù)應(yīng)對多重挑戰(zhàn)
DPU的重要性已不容忽視,但為滿足AI大模型對高性能網(wǎng)絡(luò)和數(shù)據(jù)處理能力的不斷增長的需求,DPU還需要著力解決相應(yīng)的挑戰(zhàn)。
總體而言,DPU面臨的挑戰(zhàn)還集中于性能、生態(tài)以及應(yīng)用等方面。
梁宇指出,DPU在性能層面需要持續(xù)優(yōu)化。英偉達提出的網(wǎng)絡(luò)計算概念非常領(lǐng)先,網(wǎng)絡(luò)不僅僅在數(shù)據(jù)中心做數(shù)據(jù)的傳輸,還可作為數(shù)據(jù)中心的計算單元之一,涉及數(shù)據(jù)在進入計算節(jié)點時已經(jīng)進行了預(yù)處理,從而顯著提高計算效率。然而,要實現(xiàn)這一概念,DPU需要具備強大的算力以及分配能力,目前英偉達還在研究中,國內(nèi)企業(yè)也在積極探索。
在技術(shù)層面,DPU正朝著SoC的方向發(fā)展,國內(nèi)外廠商都在積極研發(fā)和部署DPU SoC。
“但SoC功能要求復(fù)雜,成本較高,需要包含了CPU等核心組件,對架構(gòu)、工藝等均提出了更高要求。有的企業(yè)采取板卡形式,雖然性能上可能不如集成度更高的SoC,但這一設(shè)計可降低研發(fā)成本和難度?!绷河罘治稣f。
此外,DPU是軟硬件結(jié)合的產(chǎn)物,競爭力不僅僅取決于硬件性能,還涉及到軟件的適配和優(yōu)化,需要DPU廠商研發(fā)軟件棧與國產(chǎn)CPU、GPU廠商深度合作進行適配,以實現(xiàn)軟硬件的協(xié)同優(yōu)化。
面向應(yīng)用,DPU不僅在AI大模型訓(xùn)練中發(fā)揮作用,還將在云計算、裸金屬、容器云、低時延等多種場景中提供支持。但在各類應(yīng)用中,還需因地制宜。梁宇舉例說,盡管云廠商對搭配DPU的服務(wù)器有較高的需求,因為這一配置可提供更多的資源和更高的安全性,但云廠商在銷售裸金屬服務(wù)器時卻很難盈利,這在某種程度上限制了需求的增長。
“DPU還尚未達到爆發(fā)點,需要提供更多價值和適用場景以證明其價值,在不同的應(yīng)用中針對性的解決挑戰(zhàn)將有助力促進DPU加速應(yīng)用?!绷河羁偨Y(jié)道。
理性應(yīng)用穩(wěn)健發(fā)展
盡管面臨諸多挑戰(zhàn),但作為新型算力基礎(chǔ)設(shè)施的一股新生力量,DPU在多元化場景的應(yīng)用也在深入??梢哉f,國內(nèi)DPU正處于行業(yè)應(yīng)用深化和生態(tài)系統(tǒng)構(gòu)建的關(guān)鍵時期。
特別是隨著DPU在金融、電信、云計算等多個行業(yè)得到廣泛應(yīng)用,與上下游企業(yè)共同推動行業(yè)標準的制定和生態(tài)系統(tǒng)的完善也成為“連續(xù)劇”,持續(xù)推動DPU的進化和發(fā)展。
經(jīng)過近些年的深耕,盡管國內(nèi)DPU相比國外巨頭在某些性能指標上還存在差距,但通過系統(tǒng)優(yōu)化和軟硬件協(xié)同,已經(jīng)在一些領(lǐng)域?qū)崿F(xiàn)了性能超越,并且在眾多應(yīng)用中得到了有效檢驗。
據(jù)悉,云脈芯聯(lián)DPU除具備I/O虛擬化、網(wǎng)絡(luò)、存儲卸載等核心功能之外,還可支持RDMA滿足高性能計算、人工智能、云存儲等場景,支持RDMA功能的云脈芯聯(lián)DPU/智能網(wǎng)卡產(chǎn)品已在客戶和合作伙伴解決方案中落地實施。
而云豹自主研發(fā)的DPU采用創(chuàng)新的層級化可編程設(shè)計,融合國密加速引擎及自主研發(fā)的RISC-V指令集,確保核心應(yīng)用的安全可靠、自主可控及靈活高效。目前公司已與頭部云計算大廠、電信運營商和央企等開展深度合作,共同推進DPU產(chǎn)業(yè)落地。
中科馭數(shù)在最近也集中展現(xiàn)了其在低時延、云原生及智算中心三大關(guān)鍵場景下的技術(shù)成果與五大核心DPU解決方案。張宇介紹,DPU已在某頭部云計算廠商的云數(shù)據(jù)中心中落地?;贒PU的方案可以大大縮短裸金屬服務(wù)的交付時間,實現(xiàn)了虛擬網(wǎng)絡(luò)功能的全面卸載,也為存算分離相關(guān)的多種存儲技術(shù)提供了統(tǒng)一的接口。
針對云原生業(yè)務(wù)的復(fù)雜性和高時效性需求,中科馭數(shù)基于DPU的極速服務(wù)網(wǎng)格方案化繁為簡,有效降低了系統(tǒng)時延。據(jù)介紹,基于DPU的服務(wù)網(wǎng)格方案已成功應(yīng)用于國內(nèi)某知名證券機構(gòu),在七層服務(wù)治理下,時延降至100-130微秒;在四層流量下,僅需40微秒。
通過“深挖洞、廣積糧”策略,國內(nèi)DPU企業(yè)不僅在軟硬件協(xié)同、架構(gòu)層面快速迭代,還帶動算力基礎(chǔ)設(shè)施計算體系結(jié)構(gòu)的變化,加強推進在低時延、云原生等關(guān)鍵場景的落地,也將持續(xù)在算力時代譜寫不凡的篇章。