亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

AI內(nèi)存爭(zhēng)霸戰(zhàn):HBM和LPDDR誰(shuí)將稱王?

來(lái)源:愛(ài)集微 #DRAM# #AI# #HBM# #DDR#
4630

人工智能(AI)需要強(qiáng)大的計(jì)算能力和海量的數(shù)據(jù)。這些計(jì)算可以由CPU、GPU或?qū)S眉铀倨魍瓿?,雖然數(shù)據(jù)在傳輸?shù)教幚砥鞯倪^(guò)程中會(huì)通過(guò)DRAM,但最適合這一用途的DRAM類型取決于執(zhí)行訓(xùn)練或推理任務(wù)的系統(tǒng)類型。

當(dāng)前工程團(tuán)隊(duì)面臨的內(nèi)存挑戰(zhàn)是如何跟上AI快速增長(zhǎng)的計(jì)算需求,而同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(SDRAM)在這里起著關(guān)鍵作用。所有這些數(shù)據(jù)都需要被處理、存儲(chǔ)和訪問(wèn),任何環(huán)節(jié)的不匹配都可能影響系統(tǒng)的整體性能。

“我們擁有如此強(qiáng)大的計(jì)算能力,”Cadence產(chǎn)品營(yíng)銷集團(tuán)總監(jiān)Frank Ferro表示,“但從內(nèi)存帶寬的角度來(lái)看,該如何充分利用它呢?”

這個(gè)問(wèn)題并沒(méi)有簡(jiǎn)單答案,也不存在一刀切的解決方案。目前,市場(chǎng)上有四種同步DRAM(SDRAM)類型,每種都有針對(duì)性用途和各自的優(yōu)缺點(diǎn):

雙倍數(shù)據(jù)速率DDR內(nèi)存通常與CPU(尤其是復(fù)雜指令集架構(gòu)處理器,即CISC處理器)配合使用。程序可能包含復(fù)雜的分支和多種操作,DDR正是針對(duì)此類計(jì)算優(yōu)化的。DDR是最通用的架構(gòu),具有最低的延遲(首個(gè)數(shù)據(jù)的到達(dá)時(shí)間),且?guī)掃m中(使用64位數(shù)據(jù)總線)。

“雙倍數(shù)據(jù)速率”這一名稱源自于數(shù)據(jù)可以在時(shí)鐘信號(hào)的上升沿和下降沿進(jìn)行存取,而傳統(tǒng)內(nèi)存和邏輯電路通常只在單邊沿進(jìn)行操作。

低功耗DDRLPDDR與DDR類似,但為了在保持高性能的同時(shí)降低功耗,各代產(chǎn)品中引入了許多節(jié)能特性,包括:更低的供電電壓;溫度補(bǔ)償刷新率,低溫環(huán)境下減少刷新頻率;深度和部分掉電模式;部分陣列刷新選項(xiàng);寫(xiě)入均衡,補(bǔ)償數(shù)據(jù)選通信號(hào)和時(shí)鐘信號(hào)之間的偏差;命令/地址訓(xùn)練以優(yōu)化信號(hào)時(shí)序和完整性;更低的I/O電容;在后幾代產(chǎn)品中使用6位單數(shù)據(jù)速率(SDR)命令和地址總線,而非早先的10位DDR總線;兩個(gè)半寬總線而非一個(gè)全寬總線;差分時(shí)鐘;數(shù)據(jù)復(fù)制和Write-X(全寫(xiě)1或全寫(xiě)0)命令,減少特定用例的數(shù)據(jù)傳輸量;動(dòng)態(tài)電壓頻率調(diào)整(DVFS)。

在后幾代產(chǎn)品中,時(shí)鐘結(jié)構(gòu)更加復(fù)雜,保持持續(xù)運(yùn)行的主時(shí)鐘頻率為四分之一速度,由此衍生出多個(gè)僅在需要時(shí)運(yùn)行的全速時(shí)鐘。LPDDR不會(huì)安裝在雙列直插內(nèi)存模塊(DIMM)中,而是采用BGA封裝,直接焊接到主板上。

圖形DDRGDDR是為配合GPU進(jìn)行圖形處理而開(kāi)發(fā)的變體。它具有比DDR高得多的帶寬,可以向處理器傳輸大量圖形數(shù)據(jù),但也具有比DDR更高的延遲?!癎DDR更適合高帶寬應(yīng)用,但容量是個(gè)問(wèn)題,”Ferro說(shuō)。

高帶寬內(nèi)存HBM由堆疊的DRAM芯片組成,具有超寬總線,適用于對(duì)帶寬要求極高的計(jì)算任務(wù),如AI訓(xùn)練、推理和高性能計(jì)算(HPC)。

Ferro指出這四種DRAM類型的主要區(qū)別在于訪問(wèn)協(xié)議,而非存儲(chǔ)單元本身?!盁o(wú)論您使用GDDR、LPDDR、DDR還是HBM,其底層基本采用的是相同的內(nèi)存技術(shù),關(guān)鍵是如何訪問(wèn)DRAM?!?/p>

這些不同的訪問(wèn)方式可能對(duì)性能和功耗產(chǎn)生重大影響。

數(shù)據(jù)中心之王HBM

HBM在數(shù)據(jù)中心領(lǐng)域占據(jù)著不可撼動(dòng)的統(tǒng)治地位?!拔覀冋J(rèn)為HBM仍將主要應(yīng)用于數(shù)據(jù)中心的訓(xùn)練任務(wù)和超高速接口領(lǐng)域,”Expedera首席軟件工程師Ramteja Tadishetti表示,“但其高昂的價(jià)格注定使其局限于高端市場(chǎng),難以進(jìn)入注重成本的邊緣設(shè)備。”

盡管HBM能耗與價(jià)格均屬最高,但數(shù)據(jù)中心的其它零部件也一樣。Quadric首席營(yíng)銷官Steve Roddy指出:“與訓(xùn)練芯片采用的整片光罩尺寸晶圓相比,HBM的成本和功耗不過(guò)是零頭。這就像房地產(chǎn)——如果你斥資2500萬(wàn)美元在比佛利山莊購(gòu)地,絕不會(huì)在房屋建造上省預(yù)算。數(shù)據(jù)中心同理:既然已投入巨資用于芯片和封裝,HBM的增量成本微不足道。我們還未發(fā)現(xiàn)HBM在數(shù)據(jù)中心之外的任何應(yīng)用規(guī)劃,就連高端汽車市場(chǎng)也沒(méi)有。開(kāi)發(fā)L4級(jí)自動(dòng)駕駛系統(tǒng)(ADAS)的車企需要風(fēng)冷散熱且單價(jià)低于四位數(shù)的芯片方案,根本無(wú)法承受功耗達(dá)千瓦級(jí)、成本超1萬(wàn)美元的模塊。”

這種成本壁壘迫使預(yù)算有限的廠商作出妥協(xié)?!俺笠?guī)模服務(wù)商通常資金雄厚,可以直采HBM,”新思科技內(nèi)存接口產(chǎn)品線總監(jiān)Brett Murdock解釋道,“而二線廠商必須進(jìn)行權(quán)衡,因其采購(gòu)量往往難以引起HBM供應(yīng)商或2.5D封裝廠商的重視,從而無(wú)法獲得支持?!?/p>

訓(xùn)練任務(wù)對(duì)帶寬的需求遠(yuǎn)高于推理,這使得HBM在該領(lǐng)域尤為重要。雖然數(shù)據(jù)中心推理仍會(huì)采用HBM,但LPDDR和GDDR正逐步滲透。“HBM因支持近內(nèi)存計(jì)算(NMC)而在模型訓(xùn)練中風(fēng)靡,”Ferro分析道,“我推測(cè)GDDR和LPDDR將成為推理加速器卡上的主流內(nèi)存?!?/p>

Murdock對(duì)此表示認(rèn)同,并指出混合方案的趨勢(shì):“訓(xùn)練比推理需要更多內(nèi)存,因此可以考慮HBM4與LPDDR6組合,其中LPDDR6僅用于擴(kuò)容——除非你已因其他原因放棄HBM4轉(zhuǎn)用LPDDR6?!?/p>

三星也觀察到類似動(dòng)向。“混合內(nèi)存方案正日益普及,”三星IP與生態(tài)系統(tǒng)營(yíng)銷高級(jí)總監(jiān)Kevin Yee透露,“不再局限于單一選擇,為優(yōu)化功耗,現(xiàn)可見(jiàn)DDR與LPDDR混搭,或HBM與LPDDR組合?!?/p>

定制化HBM正成為新方向。大批量采購(gòu)商可與內(nèi)存制造商合作,將堆棧底層的標(biāo)準(zhǔn)邏輯芯片替換為具有專有增值功能或優(yōu)化通道的定制芯片?!安捎盟接蠨ie-to-Die協(xié)議的定制HBM能提供更優(yōu)帶寬與能效,”Yee強(qiáng)調(diào)。

散熱問(wèn)題對(duì)于堆疊結(jié)構(gòu)的HBM尤為關(guān)鍵。Fraunhofer IIS自適應(yīng)系統(tǒng)工程部設(shè)計(jì)方法學(xué)負(fù)責(zé)人Roland Jancke指出:“構(gòu)建3D堆棧模型存在諸多散熱挑戰(zhàn),無(wú)論純內(nèi)存堆疊還是包含處理器、傳感器、存儲(chǔ)器或其它組件的混合堆疊皆然?!?/p>

最后,還有地緣政治變量。“除供應(yīng)與成本外,政治因素也不容忽視,”Murdock直言,“粗略來(lái)說(shuō),HBM對(duì)中國(guó)企業(yè)基本禁運(yùn)。因此中國(guó)公司當(dāng)前AI設(shè)計(jì)采用LPDDR5X,并正向LPDDR6過(guò)渡?!?/p>

CPU的最佳搭檔DDR

DDR在數(shù)據(jù)中心雖有一席之地,但通常僅服務(wù)于協(xié)調(diào)運(yùn)算的CPU。無(wú)論是GPU還是神經(jīng)網(wǎng)絡(luò)處理器(NPU),加速器在數(shù)據(jù)中心往往依賴HBM實(shí)現(xiàn)高帶寬,或選擇LPDDR追求低功耗。

“服務(wù)器與DDR向來(lái)密不可分,”Murdock指出,“如今DDR5 RDIMM仍是黃金標(biāo)準(zhǔn),但部分廠商正轉(zhuǎn)向DDR5 MRDIMM(多路復(fù)用RDIMM),該技術(shù)能以現(xiàn)有DRAM提升性能。不過(guò)DDR5 MRDIMM在價(jià)格與功耗方面均高于常規(guī)產(chǎn)品?!?/p>

但DDR對(duì)AI數(shù)據(jù)模式的優(yōu)化有限?!癉DR仍是可靠的二級(jí)存儲(chǔ)方案,”Expedera的Tadishetti表示,“但除非在延遲和性能上有顯著改善,否則其能效比不及LPDDR,性能指標(biāo)也難以匹敵GDDR/HBM?!?/p>

即便如此,DDR的普及度和低價(jià)優(yōu)勢(shì)無(wú)可替代?!皩?duì)于不受功耗限制的大規(guī)模推理優(yōu)化設(shè)備,DDR仍是首選本地內(nèi)存,”Roddy分析道,“任何線路供電(家庭/辦公室/工廠)或自帶供電系統(tǒng)(汽車)的設(shè)備中,DDR在速度與成本的綜合表現(xiàn)上始終處于不敗之地。運(yùn)行在NPU子系統(tǒng)的推理應(yīng)用通過(guò)智能管理外部?jī)?nèi)存,可對(duì)DDR訪問(wèn)進(jìn)行批量預(yù)取,在利用DDR規(guī)模化成本優(yōu)勢(shì)的同時(shí)最大化性能?!?/p>

新晉寵兒:LPDDR

LPDDR正逐步滲透各類系統(tǒng),即便無(wú)法完全替代其他方案,也能通過(guò)混合配置降低功耗。

“對(duì)電池供電或功耗受限設(shè)備,LPDDR在帶寬與功耗的平衡上更勝一籌,”Roddy強(qiáng)調(diào),“手機(jī)市場(chǎng)催生的海量LPDDR需求,使其成為多數(shù)新興AI消費(fèi)電子和便攜設(shè)備的成本敏感型選擇?!?/p>

這一觀點(diǎn)獲得了廣泛認(rèn)同?!癓PDDR是內(nèi)存領(lǐng)域的萬(wàn)能者——甚至在某些場(chǎng)景堪稱大師,”Murdock補(bǔ)充,“它同時(shí)統(tǒng)治著移動(dòng)和汽車應(yīng)用市場(chǎng)?!盧ambus內(nèi)存接口芯片產(chǎn)品營(yíng)銷副總裁John Eble透露:“甚至可通過(guò)堆疊LPDDR來(lái)擴(kuò)容?!?/p>

LPDDR也以一種降低功耗的方式進(jìn)軍數(shù)據(jù)中心,盡管它仍無(wú)法滿足超大規(guī)模服務(wù)商的全部需求?!癓PDDR主要缺陷是缺乏RAS(可靠性/可用性/可維護(hù)性)功能,且ECC糾錯(cuò)能力不足,”Eble指出,“例如缺少應(yīng)對(duì)DRAM芯片失效的恢復(fù)機(jī)制,其設(shè)計(jì)初衷本就不考慮此類高階RAS能力。”

值得注意的是,即便在CPU傳統(tǒng)勢(shì)力范圍,LPDDR也已打開(kāi)突破口?!坝ミ_(dá)推出的Grace Arm處理器就選擇了LPDDR內(nèi)存,”Eble補(bǔ)充道。

在性能至關(guān)重要的邊緣系統(tǒng)中,LPDDR也可能取代DDR?!岸鄶?shù)邊緣設(shè)備本就不配備內(nèi)存,即便配備也需求極低,因此通常選擇最廉價(jià)方案,”Murdock解釋,“而那些真正需要內(nèi)存性能的設(shè)備,則會(huì)因LPDDR的能效特性選擇它。”

GDDR,AI永遠(yuǎn)的陪襯?

在AI系統(tǒng)中,GDDR(圖形雙倍數(shù)據(jù)速率內(nèi)存)的身影相對(duì)罕見(jiàn)。盡管其特性本應(yīng)吸引AI應(yīng)用,但它在關(guān)鍵參數(shù)上總略顯平庸:吞吐量高于LPDDR卻不及HBM,成本低于HBM或LPDDR卻又不如DDR便宜。沒(méi)有一項(xiàng)突出優(yōu)勢(shì)能使其成為特定系統(tǒng)的必選項(xiàng),因此在AI領(lǐng)域常被冷落。

“GDDR對(duì)AI應(yīng)用而言就像反例的‘金發(fā)姑娘’”,Roddy形象地比喻,“總是不上不下——它對(duì)于消費(fèi)級(jí)推理設(shè)備來(lái)說(shuō)價(jià)格太高,而設(shè)計(jì)精良的NPU通過(guò)離線編譯已能智能預(yù)取權(quán)重和激活值,根本無(wú)需GDDR的快速隨機(jī)訪問(wèn)性能;在數(shù)據(jù)中心,HBM的絕對(duì)速度優(yōu)勢(shì)更是徹底取代了GDDR?!?/p>

不過(guò),GDDR在圖形相關(guān)生成算法中仍具潛力,只要容量限制不成障礙?!八饕糜趫D形和生成式AI的某些環(huán)節(jié),”Tadishetti表示,“隨著圖像/視頻生成模型的興起,部分需求可能會(huì)轉(zhuǎn)向GDDR。但需明確是,目前尚未觀察到OEM廠商實(shí)際采用?!?/p>

四大技術(shù)路線

雖所有DRAM標(biāo)準(zhǔn)均源自JEDEC,但每類內(nèi)存由不同委員會(huì)主導(dǎo):DDR歸JC-42.3小組(標(biāo)準(zhǔn)命名慣例中JC-42涵蓋所有固態(tài)存儲(chǔ)器),GDDR由JC-42.1標(biāo)準(zhǔn)化,HBM隸屬JC-42.2,LPDDR則由JC-42.6負(fù)責(zé)。這四類DRAM仍在同步演進(jìn),但LPDDR與HBM顯然更受矚目。

Murdock指出:“LPDDR5X已實(shí)現(xiàn)高可用性和合理價(jià)位,能滿足多數(shù)應(yīng)用的能效需求。由于性能提升顯著,設(shè)計(jì)階段對(duì)LPDDR6的需求已開(kāi)始顯現(xiàn)?!?/p>

盡管LPDDR6的具體改進(jìn)尚未公開(kāi),但預(yù)計(jì)將重點(diǎn)優(yōu)化時(shí)鐘頻率、存儲(chǔ)方式、總線寬度和突發(fā)訪問(wèn)。此外還將內(nèi)置糾錯(cuò)碼(ECC),以應(yīng)對(duì)高速運(yùn)行下的信號(hào)完整性挑戰(zhàn),預(yù)計(jì)年底前量產(chǎn)上市。

HBM4則是下一代高帶寬內(nèi)存的焦點(diǎn),其帶寬、通道數(shù)和數(shù)據(jù)總線寬度均較HBM3翻倍,預(yù)計(jì)2026年上市?!爱?dāng)前主流仍是HBM3E,但隨著HBM4標(biāo)準(zhǔn)的發(fā)布,設(shè)計(jì)將快速轉(zhuǎn)向性能更強(qiáng)的HBM4,”Murdock補(bǔ)充道。

持續(xù)演進(jìn)格局

即使內(nèi)存速度不斷提升、功耗降低,處理器也在同步進(jìn)化。理想狀態(tài)下,處理器與內(nèi)存應(yīng)當(dāng)協(xié)同演進(jìn),避免任何一方成為性能瓶頸。但由于二者獨(dú)立發(fā)展,技術(shù)迭代中難免出現(xiàn)交替領(lǐng)跑的局面。

盡管專用NPU難以實(shí)現(xiàn)大規(guī)模普及,但部分低功耗方案已展現(xiàn)出潛力。若這類方案獲得市場(chǎng)認(rèn)可,勢(shì)必將對(duì)功耗敏感型系統(tǒng)中的內(nèi)存提出更嚴(yán)苛的要求。同樣,隨著數(shù)據(jù)中心處理器性能不斷突破,HBM也必須保持同步升級(jí)。

僅僅選對(duì)內(nèi)存類型并不足夠——確保高質(zhì)量的信號(hào)訪問(wèn)對(duì)高速運(yùn)行至關(guān)重要?!皬南到y(tǒng)性能角度來(lái)看,通道設(shè)計(jì)才是最關(guān)鍵的因素,我們必須重視信號(hào)完整性,”Cadence的Ferro強(qiáng)調(diào),“作為系統(tǒng)設(shè)計(jì)師,理當(dāng)能隨意更換不同廠商的GDDR6內(nèi)存芯片。但實(shí)際可能遇到:某款GDDR6運(yùn)行速度為16GB/s,而另一款卻有18GB/s版本。雖然直接替換也能工作,但原有通道真能承載18GB/s的速率嗎?”

盡管行業(yè)趨勢(shì)已逐漸明朗,系統(tǒng)設(shè)計(jì)師仍需深入評(píng)估,既要為特定系統(tǒng)選擇最適配的內(nèi)存方案,更要確保整個(gè)系統(tǒng)具備匹配的處理能力。

參考來(lái)源:https://semiengineering.com/the-best-drams-for-ai/

(校對(duì)/孫樂(lè))

責(zé)編: 李梅
來(lái)源:愛(ài)集微 #DRAM# #AI# #HBM# #DDR#
THE END

*此內(nèi)容為集微網(wǎng)原創(chuàng),著作權(quán)歸集微網(wǎng)所有,愛(ài)集微,愛(ài)原創(chuàng)

張杰

微信:jiayou_zj

郵箱:zhangjie@ijiwei.com

關(guān)注材料、硅晶圓、驅(qū)動(dòng)IC、存儲(chǔ)及設(shè)備等半導(dǎo)體產(chǎn)業(yè)鏈最新動(dòng)態(tài)。


2918文章總數(shù)
6989.3w總瀏覽量
最新資訊
關(guān)閉
加載

PDF 加載中...