隨著下半年首批支持CXL 2.0的服務(wù)器CPU問世,近來有關(guān)CXL產(chǎn)品應(yīng)用的消息多了起來。作為一種新型的高速互聯(lián)技術(shù),CXL旨在提供更高的數(shù)據(jù)吞吐量和更低的延遲,以滿足現(xiàn)代計算和存儲系統(tǒng)的需求,其在數(shù)據(jù)中心、處理器互聯(lián),尤其是在AI等領(lǐng)域,都有著廣闊的應(yīng)用前景。業(yè)界預(yù)期,2024年底將是CXL產(chǎn)品應(yīng)用落地的一個重要時點。
大廠加速布局,推出新品
CXL是繼 HBM 之后存儲領(lǐng)域的一項重要創(chuàng)新技術(shù),因而備受矚目。眾多芯片及計算設(shè)備廠商均對其給予高度重視。CXL技術(shù)的應(yīng)用落地需要CPU以及設(shè)備層面的軟硬件支持。
在芯片方面,英特爾在今年6月6日和9月26日相繼推出配備能效核(代號Sierra Forest)與性能核(代號Granite Rapids)的至強6處理器產(chǎn)品。AMD也在10月10日舉行的“Advancing AI 2024”大會上正式發(fā)布第五代EPYC服務(wù)器處理器EPYC 9005系列(代號Turin)。這些產(chǎn)品均第一代支持了CXL 2.0規(guī)范,可將CXL技術(shù)應(yīng)用到服務(wù)器端,完善了CXL 的應(yīng)用環(huán)境。
在設(shè)備方面,三星今年1月宣布與開源軟件商Red Hat合作,在Red Hat Enterprise Linux (RHEL) 9.3操作系統(tǒng)中,首次成功驗證了CXL在真實用戶環(huán)境中的運行,包括內(nèi)存識別、讀取和寫入操作。6月,隨著實際應(yīng)用研究進(jìn)入最后階段,三星宣布已建立由Red Hat認(rèn)證的CXL基礎(chǔ)設(shè)施。7 月 ,三星電子內(nèi)存部門新業(yè)務(wù)規(guī)劃團(tuán)隊負(fù)責(zé)人 Choi Jang Seok 表示,三星將在年底開始量產(chǎn)符合 CXL 2.0 協(xié)議的 256GB CMM-D 2.0 模塊。
SK 海力士9月宣布,其已成功將用于優(yōu)化CXL內(nèi)存運行的自研軟件HMSDK的主要功能在 Linux操作系統(tǒng)上運行。SK海力士宣稱,即使不調(diào)整現(xiàn)有應(yīng)用程序,HMSDK也可提高至少30%內(nèi)存整體帶寬。該軟件可以根據(jù)內(nèi)存與CXL內(nèi)存的差異靈活分配存儲資源。而在5月舉辦的Compute Express Link 聯(lián)盟開發(fā)者大會(CXL DevCon 2024)上,SK 海力士展示了 CMM-DDD5 CXL內(nèi)存模組,與僅配備傳統(tǒng)DDR5內(nèi)存的系統(tǒng)相比,帶寬提升50%、容量提升 100%。據(jù)悉,SK海力士正在對96GB及128GB容量的CXL2.0存儲器進(jìn)行客戶驗證,并計劃在年底實現(xiàn)量產(chǎn)。
國內(nèi)廠商方面,計算設(shè)備提供商超聚變在今年9月的英特爾至強6性能核處理器發(fā)布會上發(fā)布了CXL2.0內(nèi)存池解決方案,支持高達(dá)80根內(nèi)存條,實現(xiàn)低于300納秒的訪問時延,顯著提升數(shù)據(jù)處理效率。存儲控制芯片及解決方案提供商得一微電子目前正在研發(fā)新一代的CXL系列存儲解決方案,利用CXL技術(shù),顯著減少存儲設(shè)備與計算資源之間的通信延遲,實現(xiàn)存儲資源與CPU的緊密集成,為SSD的應(yīng)用提供了新的可能性。佰維存儲則研發(fā)了支持CXL 2.0規(guī)范的CXL DRAM內(nèi)存擴展模塊,內(nèi)存容量96GB,同時支持PCIe 5.0×8接口,理論帶寬32GB/s,可與支持CXL規(guī)范及E3.S接口的背板和服務(wù)器主板直連,擴展服務(wù)器內(nèi)存容量和帶寬。上述舉措表明,國內(nèi)外廠商均在積極推動CXL技術(shù)的商業(yè)化進(jìn)程。
2024年底將是重要落地時點
當(dāng)下主流的計算系統(tǒng)依賴于數(shù)據(jù)存儲與數(shù)據(jù)處理分離的多級存儲,通常采用高速緩存(SRAM)、主存(DRAM)、外部存儲(NAND Flash)的三級存儲結(jié)構(gòu)。系統(tǒng)運作時,需要不斷在內(nèi)存中往復(fù)傳輸信息。數(shù)據(jù)在三級存儲間傳輸時,后級的響應(yīng)時間及傳輸帶寬都將拖累整體性能,也就形成所謂的“存儲墻”。而且由于數(shù)據(jù)量龐大,系統(tǒng)往往還需要借助外部存儲并用網(wǎng)絡(luò)IO來訪問數(shù)據(jù),這也會致使訪問速度的進(jìn)一步下降。Google 報告就指出,該公司數(shù)據(jù)中心的DRAM利用率只有40%,微軟Azure也表示,其數(shù)據(jù)中心內(nèi),當(dāng)所有的處理器核心都分配給VM之后,仍有25%的DRAM資源未被配置,處于閑置狀態(tài)。
因此,CXL 于 2019 年由英特爾、AMD 聯(lián)合推出,并得到了包括谷歌、微軟等公司在內(nèi)的支持,正是旨在提供更高的數(shù)據(jù)吞吐量和更低的延遲,同時實現(xiàn)內(nèi)存共享、提高內(nèi)存利用效率。甚至有開發(fā)人員將CXL視為繼HBM之后的“下一個競爭戰(zhàn)場”。
CXL 技術(shù)至今經(jīng)過幾次版本升級,CXL1.0于2019年3月發(fā)布,后歷經(jīng)1.1、2.0、3.0版本。去年11月CXL聯(lián)盟發(fā)布了最新的CXL3.1版本。根據(jù)得一微首席市場官羅挺的介紹,從產(chǎn)品端來看,當(dāng)前CXL的應(yīng)用仍處于早期部署階段,2024年CXL 1.1和CXL 2.0陸續(xù)有落地產(chǎn)品,CXL 3.0的落地還需要更長時間,到2025年落地有望加速。Yole機構(gòu)的分析數(shù)據(jù)也顯示,CXL在2024年開始爬坡,在2025年將會大規(guī)模上量。
不過羅挺也指出,CXL的應(yīng)用落地目前仍有一些障礙需要克服,包含開發(fā)與 GPU、CPU 和 DRAM 兼容的CXL交換設(shè)備、設(shè)計CXL DRAM 模塊以及快速開發(fā)支持軟件等挑戰(zhàn)都是當(dāng)務(wù)之急。同時,建立CXL完整生態(tài)系統(tǒng)和產(chǎn)業(yè)鏈也是非常重要和迫切的。
令人欣慰的是,CXL內(nèi)存擴充模組的應(yīng)用環(huán)境已經(jīng)較為完善,主要的內(nèi)存廠商均已推出自家的CXL內(nèi)存擴充模組產(chǎn)品,雖然現(xiàn)在的服務(wù)器只能支持CXL 1.1標(biāo)準(zhǔn),但基本上已經(jīng)可以連接與運行,等到下一代也就是支持CXL 2.0服務(wù)器上線后,就能更好地利用它的優(yōu)勢,從而實現(xiàn)這一標(biāo)準(zhǔn)的普及。
超聚變服務(wù)器產(chǎn)品總經(jīng)理朱勇則指出,大模型的訓(xùn)練(包括推理)帶來了整個內(nèi)存的需求旺盛增長。如果我們把CXL技術(shù)落地得更好,對于內(nèi)存也是一個利好。也就是說從應(yīng)用場景來看,內(nèi)存會驅(qū)使著CXL的技術(shù)發(fā)展。
AI時代CXL未來成長可期
正是由于人們對內(nèi)存帶寬的渴求,業(yè)界對CXL的未來成長也十分看好。國聯(lián)證券從市場角度分析認(rèn)為,未來采用CXL協(xié)議服務(wù)器的占比將會持續(xù)提升。據(jù)Yolo的預(yù)測,全球CXL市場規(guī)模預(yù)計在2028年將達(dá)到150億美元。盡管目前只有不到10%的CPU與CXL標(biāo)準(zhǔn)兼容,但預(yù)計到2027年,所有CPU 都將被設(shè)計為支持CXL接口,這將進(jìn)一步推動 CXL 市場的發(fā)展。朱勇也預(yù)期,SSD未來也有可能通過E3.S,甚至PCIe I/O設(shè)備池化。除去超大存儲需求之外,這也會是有特有的需求。
從版本技術(shù)升級角度羅挺分析認(rèn)為,CXL的早期版本1.0和1.1主要聚焦于單個計算節(jié)點內(nèi),實現(xiàn)主機與設(shè)備間的高效內(nèi)存一致性互連。隨后,CXL 2.0擴展了這一概念,將互連的范圍擴展至整個機柜,使得不同節(jié)點間的內(nèi)存和其他設(shè)備資源能夠被匯聚成一個大型資源池,從而實現(xiàn)資源共享。最新的CXL 3.0和3.1版本進(jìn)一步擴展了這一理念,將互連能力跨越機柜,通過增強CXL交換機的路由功能和構(gòu)建交換機網(wǎng)絡(luò),實現(xiàn)了跨機柜的資源解耦、池化和共享,為構(gòu)建更大規(guī)模的計算和存儲資源池提供了可能。
隨著人工智能領(lǐng)域的大模型應(yīng)用逐漸成為現(xiàn)實,推理任務(wù)正在成為智能計算資源的主要消費者。然而,AI的商業(yè)可行性很大程度上取決于成本控制。在GPU上集成大量HBM會顯著提高成本,這并不是一個經(jīng)濟(jì)高效的推理解決方案。相反,采用CXL技術(shù)來擴展內(nèi)存或構(gòu)建內(nèi)存池,可以將部分HBM或顯存需求轉(zhuǎn)移到這些更經(jīng)濟(jì)的內(nèi)存資源上,從而提供一個成本效益更高的推理方案。此外,CXL作為主機與設(shè)備間互連的解決方案,其地位正變得越來越重要,為數(shù)據(jù)中心的內(nèi)存擴展和資源優(yōu)化提供了新的視角。
總之,CXL技術(shù)作為一種新興的高速互連技術(shù),給了業(yè)界一個新的發(fā)展機會,特別是對中國芯片廠商來說,有了更多新的發(fā)展機會。隨著國內(nèi)外對高性能計算和存儲技術(shù)的需求增長,中國具有更為龐大的CXL需求市場,中國芯片廠商將有機會在這個領(lǐng)域不斷擴大市場份額。