CXL 2.0加速到來，2024年底將成產(chǎn)品應(yīng)用落地重要時點

作者：陳炳欣 2024-11-04

來源：愛集微 #CXL2.0# #內(nèi)存# #AI# #CXL技術(shù)#

5.4w

隨著下半年首批支持CXL 2.0的服務(wù)器CPU問世，近來有關(guān)CXL產(chǎn)品應(yīng)用的消息多了起來。作為一種新型的高速互聯(lián)技術(shù)，CXL旨在提供更高的數(shù)據(jù)吞吐量和更低的延遲，以滿足現(xiàn)代計算和存儲系統(tǒng)的需求，其在數(shù)據(jù)中心、處理器互聯(lián)，尤其是在AI等領(lǐng)域，都有著廣闊的應(yīng)用前景。業(yè)界預(yù)期，2024年底將是CXL產(chǎn)品應(yīng)用落地的一個重要時點。

大廠加速布局，推出新品

CXL是繼 HBM 之后存儲領(lǐng)域的一項重要創(chuàng)新技術(shù)，因而備受矚目。眾多芯片及計算設(shè)備廠商均對其給予高度重視。CXL技術(shù)的應(yīng)用落地需要CPU以及設(shè)備層面的軟硬件支持。

在芯片方面，英特爾在今年6月6日和9月26日相繼推出配備能效核（代號Sierra Forest）與性能核（代號Granite Rapids）的至強6處理器產(chǎn)品。AMD也在10月10日舉行的“Advancing AI 2024”大會上正式發(fā)布第五代EPYC服務(wù)器處理器EPYC 9005系列（代號Turin）。這些產(chǎn)品均第一代支持了CXL 2.0規(guī)范，可將CXL技術(shù)應(yīng)用到服務(wù)器端，完善了CXL 的應(yīng)用環(huán)境。

在設(shè)備方面，三星今年1月宣布與開源軟件商Red Hat合作，在Red Hat Enterprise Linux (RHEL) 9.3操作系統(tǒng)中，首次成功驗證了CXL在真實用戶環(huán)境中的運行，包括內(nèi)存識別、讀取和寫入操作。6月，隨著實際應(yīng)用研究進(jìn)入最后階段，三星宣布已建立由Red Hat認(rèn)證的CXL基礎(chǔ)設(shè)施。7 月，三星電子內(nèi)存部門新業(yè)務(wù)規(guī)劃團(tuán)隊負(fù)責(zé)人 Choi Jang Seok 表示，三星將在年底開始量產(chǎn)符合 CXL 2.0 協(xié)議的 256GB CMM-D 2.0 模塊。

SK 海力士9月宣布，其已成功將用于優(yōu)化CXL內(nèi)存運行的自研軟件HMSDK的主要功能在 Linux操作系統(tǒng)上運行。SK海力士宣稱，即使不調(diào)整現(xiàn)有應(yīng)用程序，HMSDK也可提高至少30%內(nèi)存整體帶寬。該軟件可以根據(jù)內(nèi)存與CXL內(nèi)存的差異靈活分配存儲資源。而在5月舉辦的Compute Express Link 聯(lián)盟開發(fā)者大會（CXL DevCon 2024）上，SK 海力士展示了 CMM-DDD5 CXL內(nèi)存模組，與僅配備傳統(tǒng)DDR5內(nèi)存的系統(tǒng)相比，帶寬提升50%、容量提升 100%。據(jù)悉，SK海力士正在對96GB及128GB容量的CXL2.0存儲器進(jìn)行客戶驗證，并計劃在年底實現(xiàn)量產(chǎn)。

國內(nèi)廠商方面，計算設(shè)備提供商超聚變在今年9月的英特爾至強6性能核處理器發(fā)布會上發(fā)布了CXL2.0內(nèi)存池解決方案，支持高達(dá)80根內(nèi)存條，實現(xiàn)低于300納秒的訪問時延，顯著提升數(shù)據(jù)處理效率。存儲控制芯片及解決方案提供商得一微電子目前正在研發(fā)新一代的CXL系列存儲解決方案，利用CXL技術(shù)，顯著減少存儲設(shè)備與計算資源之間的通信延遲，實現(xiàn)存儲資源與CPU的緊密集成，為SSD的應(yīng)用提供了新的可能性。佰維存儲則研發(fā)了支持CXL 2.0規(guī)范的CXL DRAM內(nèi)存擴展模塊，內(nèi)存容量96GB，同時支持PCIe 5.0×8接口，理論帶寬32GB/s，可與支持CXL規(guī)范及E3.S接口的背板和服務(wù)器主板直連，擴展服務(wù)器內(nèi)存容量和帶寬。上述舉措表明，國內(nèi)外廠商均在積極推動CXL技術(shù)的商業(yè)化進(jìn)程。

2024年底將是重要落地時點

當(dāng)下主流的計算系統(tǒng)依賴于數(shù)據(jù)存儲與數(shù)據(jù)處理分離的多級存儲，通常采用高速緩存（SRAM）、主存（DRAM）、外部存儲（NAND Flash）的三級存儲結(jié)構(gòu)。系統(tǒng)運作時，需要不斷在內(nèi)存中往復(fù)傳輸信息。數(shù)據(jù)在三級存儲間傳輸時，后級的響應(yīng)時間及傳輸帶寬都將拖累整體性能，也就形成所謂的“存儲墻”。而且由于數(shù)據(jù)量龐大，系統(tǒng)往往還需要借助外部存儲并用網(wǎng)絡(luò)IO來訪問數(shù)據(jù)，這也會致使訪問速度的進(jìn)一步下降。Google 報告就指出，該公司數(shù)據(jù)中心的DRAM利用率只有40%，微軟Azure也表示，其數(shù)據(jù)中心內(nèi)，當(dāng)所有的處理器核心都分配給VM之后，仍有25%的DRAM資源未被配置，處于閑置狀態(tài)。

因此，CXL 于 2019 年由英特爾、AMD 聯(lián)合推出，并得到了包括谷歌、微軟等公司在內(nèi)的支持，正是旨在提供更高的數(shù)據(jù)吞吐量和更低的延遲，同時實現(xiàn)內(nèi)存共享、提高內(nèi)存利用效率。甚至有開發(fā)人員將CXL視為繼HBM之后的“下一個競爭戰(zhàn)場”。

CXL 技術(shù)至今經(jīng)過幾次版本升級，CXL1.0于2019年3月發(fā)布，后歷經(jīng)1.1、2.0、3.0版本。去年11月CXL聯(lián)盟發(fā)布了最新的CXL3.1版本。根據(jù)得一微首席市場官羅挺的介紹，從產(chǎn)品端來看，當(dāng)前CXL的應(yīng)用仍處于早期部署階段，2024年CXL 1.1和CXL 2.0陸續(xù)有落地產(chǎn)品，CXL 3.0的落地還需要更長時間，到2025年落地有望加速。Yole機構(gòu)的分析數(shù)據(jù)也顯示，CXL在2024年開始爬坡，在2025年將會大規(guī)模上量。

不過羅挺也指出，CXL的應(yīng)用落地目前仍有一些障礙需要克服，包含開發(fā)與 GPU、CPU 和 DRAM 兼容的CXL交換設(shè)備、設(shè)計CXL DRAM 模塊以及快速開發(fā)支持軟件等挑戰(zhàn)都是當(dāng)務(wù)之急。同時，建立CXL完整生態(tài)系統(tǒng)和產(chǎn)業(yè)鏈也是非常重要和迫切的。

令人欣慰的是，CXL內(nèi)存擴充模組的應(yīng)用環(huán)境已經(jīng)較為完善，主要的內(nèi)存廠商均已推出自家的CXL內(nèi)存擴充模組產(chǎn)品，雖然現(xiàn)在的服務(wù)器只能支持CXL 1.1標(biāo)準(zhǔn)，但基本上已經(jīng)可以連接與運行，等到下一代也就是支持CXL 2.0服務(wù)器上線后，就能更好地利用它的優(yōu)勢，從而實現(xiàn)這一標(biāo)準(zhǔn)的普及。

超聚變服務(wù)器產(chǎn)品總經(jīng)理朱勇則指出，大模型的訓(xùn)練（包括推理）帶來了整個內(nèi)存的需求旺盛增長。如果我們把CXL技術(shù)落地得更好，對于內(nèi)存也是一個利好。也就是說從應(yīng)用場景來看，內(nèi)存會驅(qū)使著CXL的技術(shù)發(fā)展。

AI時代CXL未來成長可期

正是由于人們對內(nèi)存帶寬的渴求，業(yè)界對CXL的未來成長也十分看好。國聯(lián)證券從市場角度分析認(rèn)為，未來采用CXL協(xié)議服務(wù)器的占比將會持續(xù)提升。據(jù)Yolo的預(yù)測，全球CXL市場規(guī)模預(yù)計在2028年將達(dá)到150億美元。盡管目前只有不到10%的CPU與CXL標(biāo)準(zhǔn)兼容，但預(yù)計到2027年，所有CPU 都將被設(shè)計為支持CXL接口，這將進(jìn)一步推動 CXL 市場的發(fā)展。朱勇也預(yù)期，SSD未來也有可能通過E3.S，甚至PCIe I/O設(shè)備池化。除去超大存儲需求之外，這也會是有特有的需求。

從版本技術(shù)升級角度羅挺分析認(rèn)為，CXL的早期版本1.0和1.1主要聚焦于單個計算節(jié)點內(nèi)，實現(xiàn)主機與設(shè)備間的高效內(nèi)存一致性互連。隨后，CXL 2.0擴展了這一概念，將互連的范圍擴展至整個機柜，使得不同節(jié)點間的內(nèi)存和其他設(shè)備資源能夠被匯聚成一個大型資源池，從而實現(xiàn)資源共享。最新的CXL 3.0和3.1版本進(jìn)一步擴展了這一理念，將互連能力跨越機柜，通過增強CXL交換機的路由功能和構(gòu)建交換機網(wǎng)絡(luò)，實現(xiàn)了跨機柜的資源解耦、池化和共享，為構(gòu)建更大規(guī)模的計算和存儲資源池提供了可能。

隨著人工智能領(lǐng)域的大模型應(yīng)用逐漸成為現(xiàn)實，推理任務(wù)正在成為智能計算資源的主要消費者。然而，AI的商業(yè)可行性很大程度上取決于成本控制。在GPU上集成大量HBM會顯著提高成本，這并不是一個經(jīng)濟(jì)高效的推理解決方案。相反，采用CXL技術(shù)來擴展內(nèi)存或構(gòu)建內(nèi)存池，可以將部分HBM或顯存需求轉(zhuǎn)移到這些更經(jīng)濟(jì)的內(nèi)存資源上，從而提供一個成本效益更高的推理方案。此外，CXL作為主機與設(shè)備間互連的解決方案，其地位正變得越來越重要，為數(shù)據(jù)中心的內(nèi)存擴展和資源優(yōu)化提供了新的視角。

總之，CXL技術(shù)作為一種新興的高速互連技術(shù)，給了業(yè)界一個新的發(fā)展機會，特別是對中國芯片廠商來說，有了更多新的發(fā)展機會。隨著國內(nèi)外對高性能計算和存儲技術(shù)的需求增長，中國具有更為龐大的CXL需求市場，中國芯片廠商將有機會在這個領(lǐng)域不斷擴大市場份額。