人工智能發(fā)展浪潮中,訓(xùn)練和推理是至關(guān)重要的兩個(gè)環(huán)節(jié)。AI訓(xùn)練需要建立模型,并提供大量數(shù)據(jù),從而讓它能夠進(jìn)行分析和掌握其中包含的信息。而AI推理則是通過已經(jīng)經(jīng)過訓(xùn)練的AI模型實(shí)時(shí)運(yùn)行新數(shù)據(jù),從而做出相應(yīng)的預(yù)測(cè),并產(chǎn)生相應(yīng)的結(jié)果。
由于訓(xùn)練和推理屬于不同的應(yīng)用領(lǐng)域,所以兩個(gè)環(huán)節(jié)對(duì)于包括處理器和內(nèi)存在內(nèi)的硬件要求也是不一樣的。
以內(nèi)存為例,AI訓(xùn)練由于計(jì)算周期較長,需要大量的優(yōu)質(zhì)數(shù)據(jù),所以需要用到大量的HBM(高帶寬內(nèi)存)。而AI推理是短時(shí)間的算力激增,需要更快速的數(shù)據(jù)流通,而且對(duì)能效要求也更高,所以內(nèi)存方面一般會(huì)用到GDDR和LPDDR等類型,不過也會(huì)有混合使用和交叉使用的情況。
自2012年以來,大規(guī)模的AI訓(xùn)練所使用的數(shù)據(jù)集的計(jì)算量以每年10倍的速度快速增長。以O(shè)penAI的ChatGPT為例,其2022年11月的版本使用了1750億個(gè)參數(shù),而今年3月的版本使用的參數(shù)則高達(dá)1.5萬億個(gè)。Rambus接口IP產(chǎn)品管理和營銷副總裁Joe Salvador認(rèn)為,這背后有三大原因,一是AI模型變得日益復(fù)雜了;二是大量的數(shù)據(jù)在線被生成,而且可以被使用在AI訓(xùn)練過程中;三是人工智能的應(yīng)用對(duì)于準(zhǔn)確性和穩(wěn)健性的期望持續(xù)提升。
在這三大趨勢(shì)背后,對(duì)內(nèi)存也帶來了更高帶寬和更高容量的需求。因而當(dāng)前最先進(jìn)的HBM3E產(chǎn)品支持的數(shù)據(jù)傳輸速率已經(jīng)達(dá)到9.6Gb/s,整個(gè)設(shè)備的帶寬總共加起來可以達(dá)到1.3Tb/s。
Joe Salvador告訴集微網(wǎng),Rambus一直在支持HBM3標(biāo)準(zhǔn)的持續(xù)演進(jìn),目前Rambus HBM3內(nèi)存控制器IP也已經(jīng)可提供高達(dá)9.6 Gb/s的傳輸速率,大幅提升了AI性能。
據(jù)介紹,相比HBM3 Gen1 6.4 Gbps 的數(shù)據(jù)速率,Rambus HBM3內(nèi)存控制器的數(shù)據(jù)速率提高了50%,總內(nèi)存吞吐量超過1.2 TB/s,適用于推薦系統(tǒng)的訓(xùn)練、生成式AI以及其他要求苛刻的數(shù)據(jù)中心工作負(fù)載。
Rambus HBM3 控制器模塊圖
Rambus IP核部門總經(jīng)理 Neeraj Paliwal 表示:“大語言模型要求高性能內(nèi)存技術(shù)的不斷進(jìn)步,使得HBM3成為AI/ML訓(xùn)練的首選內(nèi)存。依靠Rambus的創(chuàng)新和卓越的工程技術(shù),我們的HBM3內(nèi)存控制器IP可提供業(yè)界領(lǐng)先的9.6 Gbps性能?!?/p>
IDC內(nèi)存半導(dǎo)體副總裁 Soo-Kyoum Kim 表示:“HBM 是更快速且更高效的處理大型 AI 訓(xùn)練和推理集的關(guān)鍵內(nèi)存技術(shù),比如用于生成式 AI 的訓(xùn)練和推理。對(duì)于像Rambus這樣的 HBM IP供應(yīng)商來說,持續(xù)提高性能來支持滿足市場(chǎng)苛刻要求的領(lǐng)先 AI 加速器的意義重大?!?/p>
HBM采用創(chuàng)新的2.5D/3D架構(gòu),為AI加速器提供具有高內(nèi)存帶寬和低功耗的解決方案。憑借極低的延遲和緊湊的封裝,HBM已成為AI訓(xùn)練硬件的首選。
Rambus HBM3 內(nèi)存控制器 IP 專為需要高內(nèi)存吞吐量、低延遲和完全可編程性應(yīng)用而設(shè)計(jì)。該控制器是一種高度可配置的模塊化解決方案,可根據(jù)每個(gè)客戶對(duì)尺寸和性能的獨(dú)特要求進(jìn)行定制。對(duì)于選擇第三方HBM3 PHY的客戶,Rambus還提供HBM3控制器的集成與驗(yàn)證服務(wù)。