“隨著數(shù)字經(jīng)濟的發(fā)展,算力已日趨重要,據(jù)測算算力指數(shù)每提高1個百分點數(shù)字經(jīng)濟和GDP將分別增長3.3%和1.8%。”中國聯(lián)通研究院副院長、首席科學(xué)家唐雄燕在近日舉辦的第二屆SmartNIC&DPU技術(shù)創(chuàng)新峰會上指出,“而算力的發(fā)展和網(wǎng)絡(luò)的演進都是相輔相成的,算力網(wǎng)絡(luò)的作用在于如何找到合適的算力節(jié)點,網(wǎng)絡(luò)則發(fā)揮打通數(shù)據(jù)到計算節(jié)點的通路作用?!?/p>
左手算力、右手網(wǎng)絡(luò)的算網(wǎng)時代正加速駛來,也開辟出最后一米的DPU“新陣地”。
對此唐雄燕分析,傳統(tǒng)計算架構(gòu)是將數(shù)據(jù)送到計算節(jié)點之后由CPU來處理,但隨著網(wǎng)絡(luò)體系從以計算為中心轉(zhuǎn)向以數(shù)據(jù)為中心,CPU無法避免地面臨虛擬化層、流量處理和異構(gòu)算力開銷導(dǎo)致的性能損失,因而以CPU為中心的計算架構(gòu)亟須變革。由智能網(wǎng)卡進階而生的DPU從過去簡單的協(xié)助CPU進行網(wǎng)絡(luò)報文的處理到實現(xiàn)虛擬化的全卸載和任務(wù)全生命周期管理,承擔(dān)執(zhí)行網(wǎng)絡(luò)、存儲、安全等任務(wù)的同時形成天然、安全的隔離層的重任,將解決從數(shù)據(jù)到計算“最后一米”的問題,晉身為CPU、GPU之后的第三大算力芯片。
但真要解決“最后一米”,殊非易事。從全局來看,DPU的設(shè)計、生態(tài)和應(yīng)用還處于探索期,還要經(jīng)過架構(gòu)迭代、標(biāo)準規(guī)范、商業(yè)模式的淬煉,才能為未來的大規(guī)模商用鋪好道路。
算力網(wǎng)絡(luò)DPU助攻
算力網(wǎng)絡(luò)的概念可謂應(yīng)運而生。
從算力與網(wǎng)絡(luò)的演進來看,從90年代初到2010年,實現(xiàn)了計算機聯(lián)網(wǎng)之后出現(xiàn)了互聯(lián)網(wǎng),算力為分布式的算力;從2010年到2020年,最重要的發(fā)展是云計算,云計算實現(xiàn)了多服務(wù)鏈接,適應(yīng)云計算的網(wǎng)絡(luò)也隨之變革,出現(xiàn)了云化網(wǎng)絡(luò),SDN/NFV得以快速發(fā)展;從2021年之后,隨著5G、人工智能以及邊緣計算的進一步發(fā)展,進入到了萬物互聯(lián)時代,算力網(wǎng)絡(luò)浮出水面。
唐雄燕從運營商的角度談及,算力網(wǎng)絡(luò)可看作是網(wǎng)絡(luò)云化發(fā)展的下一個階段以及為社會提供智能基礎(chǔ)設(shè)施(Network for AI)的體系,總體是為了提高“端、邊、云”三級計算之間的協(xié)同效率。國內(nèi)的運營商也在希望通過構(gòu)建計算與網(wǎng)絡(luò)深度融合的基礎(chǔ)設(shè)施,著力實現(xiàn)計算跟網(wǎng)絡(luò)融合的服務(wù)。
而DPU在算網(wǎng)時代的潛在價值也將得到“印證”。唐雄燕解釋說,DPU在NFV業(yè)務(wù)層可提升處理萬兆流表、報文處理等能力,且現(xiàn)有NFV的業(yè)務(wù)層、虛擬化層和硬件層的解耦推進緩慢,通過探索將虛擬化層下沉到DPU的方案可更助力推動三層解耦,推進通信云NFV的架構(gòu)更開放。同時,對于5G來說UPF用戶面十分關(guān)鍵,而UPF的一些功能實際上也可通過DPU卸載,以降低處理時延、抖動、丟包率,提高UPF的轉(zhuǎn)化效率的同時還可降低建設(shè)成本。此外,在涉及5G行業(yè)專網(wǎng)的低時延抖動場景、低成本極邊緣UPF一體機、邊緣計算場景等層面,DPU仍可發(fā)揮重要作用。
對此云脈芯聯(lián)創(chuàng)始人&CEO劉永鋒也表達了類似的觀點,他提到,隨著數(shù)據(jù)中心規(guī)模逐漸擴大和承載業(yè)務(wù)的多樣化,技術(shù)架構(gòu)演進變化最多的是網(wǎng)絡(luò),底層網(wǎng)絡(luò)技術(shù)經(jīng)歷了比較明顯的代次演進,從IT機房階段的二層網(wǎng)絡(luò)、IT數(shù)據(jù)中心階段的三層網(wǎng)絡(luò)到云原生數(shù)據(jù)中心階段的虛擬網(wǎng)絡(luò),分別對應(yīng)于計算聯(lián)網(wǎng)、計算云網(wǎng)和智算云網(wǎng)。
網(wǎng)絡(luò)的代次演進也讓CPU為更多的基礎(chǔ)設(shè)施服務(wù)消耗著越來越多的算力,在CPU算力增長遭遇瓶頸、業(yè)務(wù)數(shù)據(jù)和網(wǎng)絡(luò)帶寬不斷增長的情況下,為進一步解決高性能、低延遲的問題,DPU成為新的助攻手。
“這也表明DPU的出現(xiàn)和網(wǎng)絡(luò)架構(gòu)本身的演進有緊密聯(lián)系,要站在網(wǎng)絡(luò)的入口解決這個問題,其不僅僅是為解決CPU的算力瓶頸,而是要通過先天的網(wǎng)絡(luò)屬性,在數(shù)據(jù)中心整體TCO的維度提升算力。”劉永鋒對此強調(diào)。
在芯片已成為美國打壓競爭對手的戰(zhàn)略工具之際,無疑DPU也相應(yīng)承載著更高的使命。芯啟源DPU事業(yè)部總經(jīng)理侯東輝提到,我國正大力推進數(shù)字新基建以及“東數(shù)西算”巨大工程的落地,DPU應(yīng)保證大算力的前提下實現(xiàn)低功耗。同時,算力網(wǎng)絡(luò)需將業(yè)務(wù)下沉,分布式存儲、邊緣計算、超算都成為必須,新場景下信息安全問題也至關(guān)重要。此外,DPU作為一個全新賽道,既要保證供應(yīng)鏈的安全性自主可控,亦需迎頭趕上。
面臨設(shè)計、成本、生態(tài)等挑戰(zhàn)
盡管一面世就“貴”為第三代算力芯片,但責(zé)任重大的DPU面臨的挑戰(zhàn)亦不可小覷。在集微網(wǎng)與多位行業(yè)人士的交流中得知,DPU仍面臨設(shè)計、成本、生態(tài)等諸多挑戰(zhàn)。
從設(shè)計來看,中科馭數(shù)聯(lián)合創(chuàng)始人兼CTO盧文巖談到,DPU與CPU、GPU等功能上的區(qū)別在于其是典型的三層功能平面,即數(shù)據(jù)平面、控制平面及管理平面,而這三個平面對于并行度、性能、靈活性、可靠性的要求差異巨大,比如說數(shù)據(jù)平面可能對性能和平行度要求非常高,但對于靈活性和可靠性要求不太高。而控制平面對于并行度要求沒那么高,但對性能有一定要求并且還要與數(shù)據(jù)面頻繁交互等。
“很顯然,三種不同的功能在一起對DPU的設(shè)計帶來了巨大的挑戰(zhàn)。”盧文巖總結(jié)說。
作為英偉達資深DPU解決方案架構(gòu)師,陳志輝則從數(shù)據(jù)中心場景具象需求出發(fā)探討其挑戰(zhàn)。陳志輝認為,DPU可支持多種不同的應(yīng)用場景,但目前最核心的應(yīng)用場景還是卸載和加速數(shù)據(jù)中心的基礎(chǔ)設(shè)施服務(wù),以大幅提高數(shù)據(jù)中心服務(wù)器的利用率,產(chǎn)生較高的投資收益比。
“而數(shù)據(jù)中心基本上可看成是一個軟件定義的,其核心的基礎(chǔ)設(shè)施服務(wù)都是基于軟件來實現(xiàn)并部署在商用服務(wù)器上,因而用DPU來運行和加速基礎(chǔ)設(shè)施服務(wù)就必須支持軟件定義這一屬性。總體來看,DPU的挑戰(zhàn)在于:因功耗的限制,DPU通用算力不能無限擴充,需借助加速器來支持100G或200G高性能網(wǎng)絡(luò)數(shù)據(jù)面的處理。而且,不同的云廠商基礎(chǔ)設(shè)施服務(wù)的實現(xiàn)和要求不一,需具備快速迭代開發(fā)和靈活部署的能力,DPU的設(shè)計必須平衡性能和可編程性的需求,以有效應(yīng)對DPU在云數(shù)據(jù)中心面臨的挑戰(zhàn)。”陳志輝詳解道。
饒是過了設(shè)計關(guān),部署時的成本、標(biāo)準、生態(tài)等考驗也還要著力“通關(guān)”。
對此唐雄燕提到,一是DPU在場景部署中需成本和場景的平衡,即根據(jù)具體的業(yè)務(wù)和場景選擇DPU、CPU的分工與協(xié)作使得效益最大化。二是體系重構(gòu)。前期NFV標(biāo)準是以CPU為中心的計算體系來構(gòu)建的,轉(zhuǎn)到以DPU為中心的數(shù)據(jù)體系將帶來NFV虛擬化和通信云的重構(gòu),需行業(yè)研究相應(yīng)的體系。三是標(biāo)準化,現(xiàn)階段各大廠家的硬件加速方案不盡相同,需要行業(yè)制定統(tǒng)一技術(shù)標(biāo)準。四是集成和運維,運營商對DPU的集成與運維支撐體系尚未建立和完善。
此外,生態(tài)也是不容忽視的問題。盧文巖表示,DPU 廠商均遇到生態(tài)的問題,特別是跨平臺方面面臨適配困境?!氨热鏑PU有基于x86或Arm的,還有多種操作系統(tǒng)如CentOS、麒麟等。舉例來看,公司的DPU和x86和CentOS適配可達到高性能,網(wǎng)絡(luò)延時可達1.2微秒,達到業(yè)界領(lǐng)先,但當(dāng)DPU和Arm架構(gòu)CPU適配時延時卻增至1.6微秒,再把操作系統(tǒng)換成麒麟時發(fā)現(xiàn)跑不起來了,這是巨大的挑戰(zhàn),也需做大量的工作來優(yōu)化。
破解上述挑戰(zhàn),劉永鋒認為DPU的融合、開放、極致是關(guān)鍵。DPU需一個全新的融合架構(gòu)來實現(xiàn)進一步的軟硬件融合,可支持云原生的軟件定義接口。在開放層面,需具備靈活的可編程能力,同時向上兼容面向應(yīng)用的開放軟件接口。極致則是指DPU最終需要通過創(chuàng)新架構(gòu)實現(xiàn)極致的高帶寬、低延遲,極致的高性能、低功耗和極致的大規(guī)模、高可靠。
邁普通信技術(shù)總監(jiān)鄭展偉則認為,要著力實現(xiàn)DPU技術(shù)、產(chǎn)品和生態(tài)的領(lǐng)先性,而生態(tài)領(lǐng)先性就要以開放的操作系統(tǒng)以及開放的智能網(wǎng)卡框架為依托,加上與之匹配的應(yīng)用以及上下游環(huán)節(jié)的支持,才是達成生態(tài)領(lǐng)先性唯一的途徑,并走向真正的繁榮。
不同路線的張力
盡管給DPU下定義的關(guān)鍵詞在于:是以數(shù)據(jù)為中心構(gòu)造的專用處理器,采用軟件定義的技術(shù)路線去支撐基礎(chǔ)設(shè)施層如虛擬化、存儲、安全等一系列功能。但無疑開發(fā)DPU是一項長周期、高投入、高難度的持久戰(zhàn),國內(nèi)初創(chuàng)企業(yè)創(chuàng)始人有各自不同的技術(shù)背景和經(jīng)驗,對于DPU架構(gòu)和發(fā)展路徑,卻是神仙打架各有主張。
從架構(gòu)層面考量,盧文巖從已有芯片的兩大維度即負載特征和芯片架構(gòu)出發(fā)舉例說,如以控制為中心、計算密集型的芯片最典型的是CPU;以控制為中心、I/O密集的是更傳統(tǒng)的交換機網(wǎng)絡(luò)處理芯片;以數(shù)據(jù)為中心、計算密集性型的芯片如GPU、AI等;而以數(shù)據(jù)為中心、I/O密集型的則是DPU。因此DPU可說是第四類的算力芯片,在結(jié)構(gòu)上和CPU、GPU一定是不一樣的,它應(yīng)該是一個異構(gòu)多核的架構(gòu),不同的核要去處理不同的任務(wù),但也要有足夠的靈活性,尤其在數(shù)據(jù)平面能去面向一些領(lǐng)域?qū)S玫恼Z言,提供軟件和編程的能力。
在具象的呈現(xiàn)上,侯東輝判斷,DPU是一款可編程的、軟件定義的SoC芯片,可根據(jù)不同的客戶需求和不同的場景做相應(yīng)的定義開發(fā),同時要構(gòu)建一個開放的生態(tài)。盡管運營商之前的NFV是基于CPU的架構(gòu),但DPU本身是一個支持網(wǎng)絡(luò)通信協(xié)議和指令級的專用芯片,可助力運營商更好地實現(xiàn)NFV網(wǎng)絡(luò)的虛擬化和提速業(yè)務(wù)場景。
但星云智聯(lián)解決方案部長馬國強對此表達了相左的看法,馬國強從場景、資源利用率、運維效率出發(fā)總結(jié)說,DPU應(yīng)是一個多技術(shù)路線、多形態(tài)的解決方案,而不是經(jīng)常討論的SoC芯片。通過對數(shù)據(jù)面、控制面、管理面等來考量,它的形態(tài)可以是CPU+FPGA、CPU+ASIC或者是將CPU和ASIC整合于一體。
盡管各家有不同的主張和路徑依賴,但近段時間已來已進入DPU產(chǎn)品的密集檢驗期,各大初創(chuàng)企業(yè)也在密集發(fā)布相關(guān)產(chǎn)品或方案來做市場的敲門磚。畢竟,作為主力芯片新物種,DPU的市場空間在快速擴張,預(yù)計至2025年全球市場有望達到245.3億美元,復(fù)合增長率為51.73%。不止英偉達、英特爾等芯片巨頭紛紛入局,國內(nèi)則有數(shù)十家創(chuàng)業(yè)公司瞄準了DPU賽道,并在加速攻城略地。
而團隊的網(wǎng)絡(luò)經(jīng)驗是否深厚、軟硬件打磨是否足夠、生態(tài)的構(gòu)建是否到位,都要將DPU拿到臺面、走到場景中憑借實力說話,這是DPU廠商必然要直面的長久修行。
記者在第二屆SmartNIC&DPU技術(shù)創(chuàng)新峰會現(xiàn)場看到,云脈芯聯(lián)基于FPGA實現(xiàn)的DPU產(chǎn)品metaFusion-50在RDMA場景下的測試效果。工作人員介紹說,metaFusion-50擁塞控制實現(xiàn)機制可以迅速響應(yīng)網(wǎng)絡(luò)擁塞,通過硬件機制準確、及時降速,并確保帶寬公平分配,同時可以及時、準確、全面的上報監(jiān)控信息,可以滿足算存分離、GPU內(nèi)存共享以及AI模型訓(xùn)練等高價值場景的需求。
DPU正乘勢而來,但如何破繭成蝶,需要認準趨勢,按規(guī)律以科學(xué)的方法推進。無論如何,DPU的未來將殊途同歸,業(yè)界共識是DPU一定會走定制化向通用化的路徑。而誰能率先實現(xiàn)正反饋,誰就能將自己的“路徑”變成行業(yè)公認的一大方向,這一步或仍需時間亦更需能力、實力和定力來檢驗。
(校對/張軼群)