系統(tǒng)效率由關(guān)鍵組件的性能決定。對(duì)于人工智能(AI)硬件系統(tǒng),內(nèi)存子系統(tǒng)性能是最關(guān)鍵的因素。在這篇文章中,我們將概述AI模型概況以及高帶寬存儲(chǔ)器(HBM)子系統(tǒng)對(duì)有效系統(tǒng)性能的影響。
AI模型已從上世紀(jì)90年代的數(shù)十億參數(shù)發(fā)展到今天的萬(wàn)億參數(shù)模型(TPM)。90年代的統(tǒng)計(jì)語(yǔ)言模型(SLM)有數(shù)億參數(shù),主要針對(duì)語(yǔ)音、文本處理和預(yù)測(cè)下一個(gè)單詞。在早期,與當(dāng)時(shí)可用的AI模型規(guī)模相比,硬件系統(tǒng)的處理能力和內(nèi)存需求非常充足。
在過去幾十年里,互聯(lián)網(wǎng)的迅猛發(fā)展催生了具有互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集。隨著越來(lái)越龐大的圖像數(shù)據(jù)集可供使用,神經(jīng)網(wǎng)絡(luò)成為訓(xùn)練的首選算法。隨后,擁有數(shù)十億參數(shù)的大語(yǔ)言模型(LLM)應(yīng)運(yùn)而生。AI模型的最新一代是多模態(tài)模型或大型多模態(tài)模型(LMM)。這些模型通過多種類型的數(shù)據(jù)集進(jìn)行訓(xùn)練,比如文本、圖像、音頻、視頻,及其相互依賴關(guān)系,從而造就了萬(wàn)億參數(shù)模型,未來(lái)將出現(xiàn)100個(gè)萬(wàn)億參數(shù)模型。
在需求端,AI應(yīng)用也在不斷增多。例如,用于股票交易和醫(yī)學(xué)成像的專用模型正在開發(fā)中。所有這些都表明,在模型開發(fā)領(lǐng)域存在著巨大的機(jī)遇,從而導(dǎo)致對(duì)AI處理能力的巨大需求。大語(yǔ)言模型以每?jī)赡?10倍的速度增長(zhǎng),而訓(xùn)練所需的計(jì)算能力則以每?jī)赡?50倍的速度增長(zhǎng)。
就AI硬件系統(tǒng)而言,以浮點(diǎn)運(yùn)算(FLOPs)衡量的計(jì)算能力以每?jī)赡?倍的速度增長(zhǎng),以每秒千兆比特(Gbps)衡量的DRAM帶寬則以每?jī)赡?倍的速度增長(zhǎng)。很明顯,大語(yǔ)言模型的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過了摩爾定律。同樣明顯的是,內(nèi)存帶寬的增長(zhǎng)速度是AI生態(tài)系統(tǒng)中的限制因素,從而給AI硬件系統(tǒng)的性能造成了瓶頸。事實(shí)上,?Tcl編程語(yǔ)言發(fā)明者、斯坦福大學(xué)計(jì)算機(jī)系教授John Ousterhout早在1990年就曾預(yù)測(cè)到這一限制。后來(lái),在1994年,美國(guó)弗吉尼亞大學(xué)教授William Wulf和計(jì)算機(jī)科學(xué)領(lǐng)域?qū)W者Sally McKee發(fā)表了一篇經(jīng)過深入研究的論文,題為“Hitting the memory wall: implications of the obvious(突破內(nèi)存墻:顯而易見的影響)”。如今,“內(nèi)存墻”已成為一個(gè)陳詞濫調(diào),但它凸顯了內(nèi)存帶寬對(duì)于AI硬件系統(tǒng)的關(guān)鍵性。
對(duì)于AI硬件內(nèi)存子系統(tǒng)而言,具有1024位數(shù)據(jù)總線的HBM是現(xiàn)有可選方案中的最佳選擇。JEDEC(固態(tài)技術(shù)協(xié)會(huì))于2013年發(fā)布了HBM標(biāo)準(zhǔn)。HBM最初是針對(duì)圖形處理單元(GPU)設(shè)計(jì)的。隨著GPU在AI訓(xùn)練應(yīng)用中變得日益普及,對(duì)于用于訓(xùn)練最先進(jìn)(SOTA)的Transformer模型的內(nèi)存子系統(tǒng)來(lái)說,HBM顯然是不二之選。與DDR或GDDR相比,HBM的主要優(yōu)勢(shì)在于其更高的帶寬、更低的功耗和DRAM尺寸。
在過去十年中,HBM2和HBM3標(biāo)準(zhǔn)相繼發(fā)布,工作頻率和DRAM堆疊高度/容量方面都有所改進(jìn)。2013年發(fā)布的HBM標(biāo)準(zhǔn)規(guī)定帶寬為1Gbps。HBM2的帶寬為2.4Gbps,而HBM3則達(dá)到6.4Gbps。JEDEC標(biāo)準(zhǔn)僅規(guī)定了所需的最低帶寬,對(duì)更高的帶寬并無(wú)限制。由于大語(yǔ)言模型的規(guī)模呈爆炸式增長(zhǎng),AI硬件系統(tǒng)始終需要更高的性能。因此,HBM DRAM供應(yīng)商始終在向生產(chǎn)更高性能產(chǎn)品的方向邁進(jìn)。
為了將這些高速設(shè)備與JEDEC規(guī)定的基本速度等級(jí)區(qū)分開來(lái),便使用了“HBM3E”這一術(shù)語(yǔ)。即符合HBM3標(biāo)準(zhǔn)但運(yùn)行速度更高的HBM DRAM產(chǎn)品被標(biāo)記為HBM3E產(chǎn)品,HBM3E也被稱為第五代HBM。
HBM3E可提供超過1.2TB/s的帶寬,堆疊層數(shù)最高可達(dá)12層,對(duì)應(yīng)最高容量達(dá)36GB,當(dāng)前三大原廠均已入局并在2024年上半年陸續(xù)出貨,考慮到HBM需求的火爆程度,SK海力士還計(jì)劃提前一年在2025年出貨HBM4。
AI的內(nèi)存子系統(tǒng)有兩個(gè)組件:a)HBM DRAM堆棧;b)SoC上的HBM IP,為HBM DRAM堆棧提供接口。
需要注意的是,SoC上的HBM IP的運(yùn)行速度必須達(dá)到或超過HBM DRAM的額定速度。對(duì)于SoC設(shè)計(jì)而言,其方案應(yīng)始終是在芯片上采用性能最高的HBM IP,原因如下:
性能方面:由于內(nèi)存帶寬是AI硬件系統(tǒng)性能的限制因素,HBM子系統(tǒng)性能的每一點(diǎn)微小提升,都會(huì)對(duì)整個(gè)AI硬件系統(tǒng)的性能產(chǎn)生倍增效應(yīng)。例如,采用近期推出的、帶寬為9.6Gbps的HBM3E內(nèi)存子系統(tǒng)的AI硬件系統(tǒng),其性能將比目前正在生產(chǎn)的、速度等級(jí)最高8.0Gbps的HBM3E系統(tǒng)高出許多倍。
面向未來(lái):典型的SoC設(shè)計(jì)周期為12至18個(gè)月,而SoC產(chǎn)品的生命周期可能在四到十年不等,具體取決于目標(biāo)市場(chǎng)細(xì)分領(lǐng)域。因此,產(chǎn)品規(guī)劃至少應(yīng)該展望未來(lái)六年。內(nèi)存系統(tǒng)設(shè)計(jì)應(yīng)考慮從SoC設(shè)計(jì)開始后的六年后可用的最高速度HBM DRAM,并選擇與之速度等級(jí)相匹配的HBM IP。
制造方面:性能更高的HBM IP能夠提供額外的裕度,以適應(yīng)制造工藝的差異。例如,如果你的計(jì)劃是設(shè)計(jì)帶寬為9.6Gbps的HBM內(nèi)存系統(tǒng),那么SoC上性能達(dá)到12.8Gbps(下一代設(shè)備的預(yù)期速度)的HBM IP,相比額定速度為9.6Gbps的HBM IP,提供更多的裕度。
可靠性方面:對(duì)于超大規(guī)模的AI云服務(wù)運(yùn)營(yíng)商來(lái)說,在AI加速卡所報(bào)告的故障原因中,HBM內(nèi)存系統(tǒng)的可靠性故障位列前兩位。隨著時(shí)間的推移,數(shù)據(jù)中心的工作負(fù)載會(huì)降低HBM內(nèi)存系統(tǒng)的性能。SoC上設(shè)計(jì)和運(yùn)行速度為12.8Gbps的HBM IP,相比運(yùn)行速度為9.6Gbps的HBM IP,能提供高得多的可靠性。
擴(kuò)展內(nèi)存帶寬是一項(xiàng)艱巨的任務(wù)。HBM標(biāo)準(zhǔn)和產(chǎn)品已從1Gbps的HBM發(fā)展到10.4Gbps的HBM3E,后者是目前Cadence所支持的速度等級(jí)。過去十年間,由于晶圓代工、制造以及設(shè)計(jì)流程/技術(shù)的進(jìn)步,AI硬件系統(tǒng)的內(nèi)存帶寬增長(zhǎng),主要是更高時(shí)鐘速率的線性增長(zhǎng)。HBM4標(biāo)準(zhǔn)已于2024年預(yù)先公布,最終版本預(yù)計(jì)將于2025年發(fā)布。HBM4有望具備比當(dāng)前HBM3E高得多的性能。
顯然,對(duì)于以“訓(xùn)練”為目標(biāo)的AI硬件系統(tǒng)而言,HBM起著至關(guān)重要的作用。SoC設(shè)計(jì)師面臨的挑戰(zhàn)在于,要規(guī)劃并提供性能最高的內(nèi)存子系統(tǒng),以滿足當(dāng)下以及未來(lái)幾年即將推出的AI產(chǎn)品所需的數(shù)據(jù)傳輸速率。(校對(duì)/孫樂)
參考文章:https://semiengineering.com/ais-rapid-growth-the-crucial-role-of-high-bandwidth-memory/