當(dāng)前生成式AI以及大模型技術(shù),正以超預(yù)期的普及速度與規(guī)模,成為歷史上最具影響力的技術(shù)變革之一。
從大語言模型輔助EDA設(shè)計(jì),到構(gòu)建數(shù)字孿生的晶圓廠,AI對(duì)于半導(dǎo)體產(chǎn)業(yè)的賦能,也推動(dòng)后者來到新的轉(zhuǎn)折點(diǎn)。
一方面,物理和成本極限宣告了以摩爾定律和半導(dǎo)體縮放技術(shù)為代表的傳統(tǒng)芯片演進(jìn)方式走到盡頭,芯粒、先進(jìn)封裝等替代方案勢(shì)起。另一方面,AI大模型快速迭代,多場(chǎng)景下,AI工作負(fù)載對(duì)于芯片算力和復(fù)雜度的需求也在持續(xù)增加。
芯片行業(yè)因?yàn)锳I時(shí)代的到來,正在經(jīng)歷什么樣的轉(zhuǎn)變?作為芯片產(chǎn)業(yè)的最上游,像Arm這樣的計(jì)算平臺(tái)廠商往往對(duì)于行業(yè)有著準(zhǔn)確的前瞻性判斷。日前,Arm推出行業(yè)報(bào)告,系統(tǒng)分享了對(duì)于AI時(shí)代芯片行業(yè)發(fā)展的洞察和思考,Arm解決方案工程部執(zhí)行副總裁 Kevork Kechichian就此報(bào)告同集微網(wǎng)等在內(nèi)的媒體進(jìn)行了交流和分享。
在Arm看來,生態(tài)上的廣泛合作、系統(tǒng)層面的整體優(yōu)化、接口等標(biāo)準(zhǔn)化策略,模塊化定制化的設(shè)計(jì)方向以及靈活且強(qiáng)大的安全框架,將是AI時(shí)代芯片設(shè)計(jì)的成功之道。
能效已成關(guān)注首選項(xiàng)
近年來,全球范圍內(nèi)掀起的AI算力競(jìng)賽,成為AI時(shí)代最顯著的注腳。計(jì)算工作負(fù)載的規(guī)模與復(fù)雜性持續(xù)提升,從訓(xùn)練龐大模型到執(zhí)行多步驟推理,都伴隨大量的電力與能源消耗。
與此同時(shí),大量資金也投入其中,LessWrong網(wǎng)站對(duì)幾大AI巨頭的GPU/TPU數(shù)量進(jìn)行估算,預(yù)計(jì)到2025年,微軟、谷歌、Meta、亞馬遜和xAI所擁有GPU的等效H100數(shù)量將超過1240萬塊,價(jià)值數(shù)千億美元。
根據(jù)波士頓咨詢公司數(shù)據(jù)顯示,預(yù)計(jì)到2030年,美國(guó)數(shù)據(jù)中心電力消耗將占全美用電總量的7.5%(約 3900 億千瓦時(shí)),相當(dāng)于約4000萬美國(guó)家庭年用電總量,接近全美家庭總數(shù)的三分之一。
顯然,這種通過成千上萬設(shè)備算力堆砌,耗時(shí)數(shù)月進(jìn)行訓(xùn)練的“蠻力式”發(fā)展路徑在經(jīng)濟(jì)上難以為繼。而在空間和功耗更加受限的小型終端上,對(duì)于能耗的需求也同樣如此。由此催生出對(duì)于更加智能更高能效的芯片解決方案的迫切需求。
因此,能效和功率管理已經(jīng)成為推動(dòng)AI計(jì)算以及芯片設(shè)計(jì)的首要關(guān)注點(diǎn),這主要涉及三方面的因素:
一是計(jì)算。由于AI依賴于大量乘積累加運(yùn)算,芯片中通常需要集成高能效的計(jì)算架構(gòu)。
二是數(shù)據(jù)傳輸。多數(shù)情況下計(jì)算輸出的結(jié)果需要在芯片其他組件中進(jìn)一步處理,因此需要優(yōu)化組件之間的數(shù)據(jù)傳輸和通信流程。
三是冷卻。計(jì)算和內(nèi)存單元合封等高性能芯片普遍采用的封裝方式,可以最小化延遲和電力損耗,但卻也帶來了散熱方面的挑戰(zhàn),需要對(duì)應(yīng)配備高效的冷卻方案。
總結(jié)而言,芯片設(shè)計(jì)正在整合優(yōu)化的內(nèi)存層次結(jié)構(gòu)、系統(tǒng)設(shè)計(jì)通信機(jī)制等方案減少了數(shù)據(jù)傳輸,同時(shí)借助芯片堆疊、HBM以及先進(jìn)封裝等技術(shù),最大程度地降低剩余數(shù)據(jù)傳輸過程中的能耗,輔以成熟的電源管理技術(shù),降低能耗,維持高能效的表現(xiàn)。
芯片設(shè)計(jì)中的能耗降低越來越成為一項(xiàng)系統(tǒng)性工程,在談及如何降低能耗的同時(shí),平衡算力和能效時(shí),Kevork Kechichian給出了他的見解:
首先,從最底層如晶體管層開始,與晶圓代工廠緊密合作,確保晶體管在功耗和性能方面實(shí)現(xiàn)優(yōu)化,無論是動(dòng)態(tài)功耗還是漏電功耗;其次是架構(gòu)層面,對(duì)CPU以及各類處理引擎的指令集進(jìn)行針對(duì)性優(yōu)化;第三從系統(tǒng)級(jí)芯片(SoC)設(shè)計(jì)、封裝到數(shù)據(jù)中心等層面進(jìn)行優(yōu)化。在此過程中,關(guān)鍵要點(diǎn)在于對(duì)數(shù)據(jù)及其傳輸過程的保護(hù),降低在內(nèi)存之間傳輸數(shù)據(jù)所消耗的電力;最后,在支撐大型數(shù)據(jù)中心運(yùn)行的軟件層,實(shí)現(xiàn)智能負(fù)載均衡,即針對(duì)AI的不同方面進(jìn)行處理上的優(yōu)化,合理分配工作負(fù)載,盡可能減少不同節(jié)點(diǎn)之間的數(shù)據(jù)傳輸。
標(biāo)準(zhǔn)化建設(shè)勢(shì)在必行
傳統(tǒng)縮放技術(shù)的終結(jié),使得先進(jìn)封裝技術(shù)成為后摩爾定律時(shí)代芯片演進(jìn)的重要方向之一,由此推動(dòng)了Chiplet(芯粒)等技術(shù)的發(fā)展,該技術(shù)通過多個(gè)半導(dǎo)體晶粒(Die)的堆疊和互連,實(shí)現(xiàn)性能和能效的提升。
Chiplet為芯片設(shè)計(jì)帶來了新的思路和優(yōu)勢(shì)。比如,某些場(chǎng)景下,芯片廠商無需重新設(shè)計(jì)產(chǎn)品,只需添加更多芯粒以增加算力和性能,甚至可以升級(jí)現(xiàn)有芯粒,針對(duì)特定功能對(duì)不同組件實(shí)現(xiàn)優(yōu)化。同時(shí),能夠?qū)崿F(xiàn)更靈活的差異化設(shè)計(jì)方案,降低成本加速研發(fā),更快將產(chǎn)品推向市場(chǎng)。此外,也有助于提升良率,以及在不同產(chǎn)品之間實(shí)現(xiàn)更高的復(fù)用潛力等。
然而,這些優(yōu)勢(shì)背后也存在諸多挑戰(zhàn),能耗問題首當(dāng)其沖。比如,當(dāng)SoC的組件分散在多個(gè)晶粒上時(shí),電源供給會(huì)變得更加復(fù)雜。3D堆疊雖然提高了功率密度,但同時(shí)也帶來供電與熱管理方面的挑戰(zhàn)。此外,芯粒之間的接口還引發(fā)了關(guān)于延遲控制、功耗管理以及能效優(yōu)化等諸多考量。
Kevork Kechichian指出,解決上述挑戰(zhàn)需要行業(yè)緊密合作,制定新的協(xié)作協(xié)議,推動(dòng)成果的復(fù)用,從而為企業(yè)創(chuàng)造更多商業(yè)價(jià)值。這一過程中,標(biāo)準(zhǔn)化建設(shè)非常重要。而作為推動(dòng)芯粒發(fā)展的領(lǐng)先企業(yè),Arm已在整個(gè)技術(shù)生態(tài)系統(tǒng)內(nèi)展開合作,借助通用框架和行業(yè)標(biāo)準(zhǔn)來加速芯粒市場(chǎng)的發(fā)展。
“先進(jìn)封裝與芯粒技術(shù)的真正價(jià)值在于實(shí)現(xiàn)設(shè)計(jì)與接口的真正標(biāo)準(zhǔn)化,這涉及從封裝廠的集成,一直到在系統(tǒng)中不同芯粒之間進(jìn)行通信的全過程。因此,與合作伙伴就標(biāo)準(zhǔn)化問題達(dá)成共識(shí)至關(guān)重要。通過標(biāo)準(zhǔn)化,企業(yè)可以根據(jù)不同的性能需求,快速地組合和配置這些芯粒,從而打造出具有不同性能定位的芯片,確保在快速迭代的市場(chǎng)競(jìng)爭(zhēng)中占據(jù)先機(jī)?!盞evork Kechichian說。
在此背景下,Arm推出了芯粒系統(tǒng)架構(gòu) (Chiplet System Architecture, CSA),致力于對(duì)各個(gè)芯粒之間及在整個(gè)系統(tǒng)內(nèi)的通信方式等多個(gè)方面實(shí)現(xiàn)標(biāo)準(zhǔn)化。此外,Arm還攜手合作伙伴共同推動(dòng)AMBA CHI芯片到芯片互連協(xié)議等倡議的落地實(shí)施,確保來自不同供應(yīng)商的不同芯粒通過一個(gè)統(tǒng)一的接口協(xié)議實(shí)現(xiàn)芯粒之間的互操作性。
“過去,標(biāo)準(zhǔn)化常被視為放棄自身的IP或競(jìng)爭(zhēng)優(yōu)勢(shì)。但如今,鑒于系統(tǒng)的高度復(fù)雜性以及合作模式的演變,標(biāo)準(zhǔn)化變得尤為重要——所有參與方都將從中獲得多重益處?!盞evork Kechichian強(qiáng)調(diào)。
定制化的顯著優(yōu)勢(shì)
芯粒等技術(shù)的發(fā)展,為定制化芯片的崛起鋪平了道路。如今,定制化芯片正展示出強(qiáng)大的市場(chǎng)需求。
為實(shí)現(xiàn)更高效的AI計(jì)算,并與自身業(yè)務(wù)實(shí)現(xiàn)更緊密的結(jié)合,塑造差異化競(jìng)爭(zhēng)力。如今,幾乎所有的半導(dǎo)體行業(yè)從業(yè)者都在探索和投資定制芯片,特別是全球四大超大規(guī)模云服務(wù)提供商,他們?cè)?2024 年全球云服務(wù)器采購支出中占了近半數(shù)的份額。
例如,AWS Graviton4是基于Arm技術(shù)打造的定制芯片解決方案,專為加速數(shù)據(jù)中心和 AI 工作負(fù)載而設(shè)計(jì),該解決方案實(shí)現(xiàn)了性能與能效的顯著提升。2023 年,微軟發(fā)布了其首款為云服務(wù)定制的芯片Microsoft Azure Cobalt,該芯片基于 Arm Neoverse 計(jì)算子系統(tǒng) (CSS) 打造,旨在應(yīng)對(duì)復(fù)雜的計(jì)算基礎(chǔ)設(shè)施挑戰(zhàn)。最近,Google Cloud也發(fā)布了其基于Arm Neoverse 平臺(tái)的Axion定制芯片,專為應(yīng)對(duì)數(shù)據(jù)中心復(fù)雜的服務(wù)器工作負(fù)載而設(shè)計(jì)。
通過經(jīng)過驗(yàn)證的核心計(jì)算功能以及靈活的內(nèi)存與 I/O 接口配置,Arm Neoverse CSS 加快了產(chǎn)品上市進(jìn)程,帶來顯著的優(yōu)勢(shì)。它在確保軟件一致性的同時(shí),為SoC設(shè)計(jì)人員提供了靈活性,使其能夠基于CSS周圍新增定制子系統(tǒng),以打造差異化的解決方案。
除超大型云服務(wù)商外,許多中小企業(yè)也在積極研發(fā)專屬定制芯片解決方案,以應(yīng)對(duì)日益復(fù)雜的計(jì)算需求。在Arm技術(shù)和英特爾代工服務(wù) (IFS) 的支持下,芯片設(shè)計(jì)技術(shù)提供商智原科技正在開發(fā)面向數(shù)據(jù)中心和先進(jìn) 5G 網(wǎng)絡(luò)的 64 核定制 SoC。此外,韓國(guó)的 AI 芯片公司 Rebellions 也宣布打造新的大規(guī)模 AI 芯片平臺(tái),用以提升AI 工作負(fù)載的能效表現(xiàn)。
對(duì)于如何平衡定制芯片中,個(gè)性化與通用性之間的關(guān)系,以及開發(fā)成本較高的問題。Kevork Kechichian表示,關(guān)鍵在于確保芯片與軟件具備高度的可復(fù)用性,首先底層平臺(tái)必須具備一定的通用性,才能確保不同定制芯片之間實(shí)現(xiàn)一定程度的相互復(fù)用,從而有效應(yīng)對(duì)成本與產(chǎn)品上市時(shí)間所帶來的挑戰(zhàn)。
其次,對(duì)于開發(fā)成本,Kevork Kechichian表示,這既涉及研發(fā)人力,也涉及大量計(jì)算資源。為此,Arm已探索出多種能夠有效降低開發(fā)投入的方法,顯著縮短合作伙伴產(chǎn)品上市周期。
“最基礎(chǔ)的方法是從平臺(tái)的角度出發(fā),識(shí)別可復(fù)用的模塊與資源,并確保定制工作是在已有基礎(chǔ)上進(jìn)行,無需一切從零開始。我們需要充分評(píng)估現(xiàn)有的資源,并在此基礎(chǔ)上構(gòu)建定制化產(chǎn)品。正是基于這種方式,Arm與SoC及各類IP提供商密切合作,將解決方案交付給我們的合作伙伴?!盞evork Kechichian說。
Arm:推動(dòng)AI革新
如上所述,無論是能效、還是先進(jìn)封裝,以及定制化的趨勢(shì),現(xiàn)代芯片設(shè)計(jì)的復(fù)雜性,越來越需要系統(tǒng)性的思維,需要IP提供商、晶圓代工廠、封裝廠與系統(tǒng)集成商之間建立更加緊密的合作關(guān)系。這對(duì)于處于產(chǎn)業(yè)生態(tài)基石層面的Arm而言,更加具有優(yōu)勢(shì)。
此外,Arm憑借其在技術(shù)積累和創(chuàng)新方面的優(yōu)勢(shì),也使其在AI時(shí)代產(chǎn)業(yè)中的地位愈發(fā)凸顯。
一方面,隨著AI的崛起,尤其是生成式AI和大語言模型的廣泛應(yīng)用,市場(chǎng)對(duì)專用AI加速器的需求愈發(fā)迫切。以數(shù)據(jù)中心領(lǐng)域的工作負(fù)載為例,其對(duì)算力有著極為嚴(yán)格的嚴(yán)格要求,需要專用硬件才能實(shí)現(xiàn)高效運(yùn)行。
另一方面。面對(duì)支撐這些新型工作負(fù)載所必須的強(qiáng)大主處理器的根本需求。無論加速器是GPU,還是谷歌TPU,微軟Maia,還是AWS Tranium和Inferentia等定制加速器,都必須有出色的主處理器來發(fā)揮AI加速器的計(jì)算潛力。
如今,處理器架構(gòu)已成為決定AI系統(tǒng)能效與性能的關(guān)鍵要素。憑借創(chuàng)新性、定制化與高能效的獨(dú)特優(yōu)勢(shì),Arm已成為這一領(lǐng)域的關(guān)鍵力量,具體而言,Arm計(jì)算平臺(tái)的靈活性體現(xiàn)在三個(gè)方面,將有效支持AI創(chuàng)新。
一是異構(gòu)計(jì)算:基于Arm架構(gòu)的CPU正成為GPU和TPU等AI加速器的理想配套處理器,既能高效管理數(shù)據(jù)流和通用計(jì)算任務(wù),又能應(yīng)對(duì)工作中遇到的瓶頸,支持不同類型的工作負(fù)載。上述所有處理器都可以作為AI推理的處理引擎,部署到Arm合作伙伴所開發(fā)的SoC中。
二是推理效率:雖然大型AI模型的訓(xùn)練通常有賴于高性能GPU,但Arm的高能效處理器非常適合在端側(cè)和數(shù)據(jù)中心執(zhí)行推理任務(wù)。
三是可擴(kuò)展性:Arm架構(gòu)支持CPU、GPU與專用加速器的無縫集成,這對(duì)于打造優(yōu)化的AI系統(tǒng)至關(guān)重要,也有助于讓Arm合作伙伴的硬件和軟件開發(fā)工作變得更輕松。
Arm的解決方案聚焦于現(xiàn)代 AI計(jì)算的以下三大關(guān)鍵領(lǐng)域:
一是持續(xù)創(chuàng)新:Arm 定期發(fā)布新 CPU 架構(gòu)及支持功能,專注于推動(dòng)定制芯片發(fā)展能夠順應(yīng)不斷演進(jìn)的AI工作負(fù)載的需求。二是定制化潛力:隨著 AI 模型在復(fù)雜度和規(guī)模上的不斷增長(zhǎng),Arm架構(gòu)的靈活性使其能夠針對(duì)特定AI任務(wù)打造專用解決方案。三是出色的能效:基于 Arm 架構(gòu)處理器的高能效特性,使其在管理大規(guī)模 AI 部署的總擁有成本(TCO) 方面愈發(fā)凸顯價(jià)值。
機(jī)遇:從數(shù)據(jù)中心到邊緣AI
由于Arm在芯片設(shè)計(jì)流程中扮演著重要角色,AI時(shí)代的到來為其提供了更多機(jī)遇。
如今,AI PC、AI手機(jī)等各種AI類的終端設(shè)備如雨后春筍般不斷涌現(xiàn),隨著移動(dòng)設(shè)備計(jì)算能力的不斷提升,邊緣AI處理正變得日益普遍。這主要得益于那些專為功耗受限環(huán)境設(shè)計(jì)的芯片,能夠在移動(dòng)設(shè)備等終端上運(yùn)行多種AI工作負(fù)載。低延遲、隱私、成本……邊緣AI的優(yōu)勢(shì)對(duì)于實(shí)現(xiàn)更快速的AI體驗(yàn)至關(guān)重要。
同時(shí),伴隨著如DeepSeek等高效AI模型的出現(xiàn),也推動(dòng)了AI向邊緣推移。例如,Arm與Meta的優(yōu)化合作使得Meta Llama 3.2大語言模型能夠快速實(shí)現(xiàn)在基于Arm架構(gòu)的移動(dòng)設(shè)備上運(yùn)行??勺屘崾驹~處理速度提高五倍,詞元(token)生成速度提高三倍,在生成階段實(shí)現(xiàn)每秒19.92個(gè)詞元。這直接減少了在設(shè)備上處理 AI工作負(fù)載的延遲,大大提升了用戶整體體驗(yàn)。此外,當(dāng)邊緣側(cè)能處理的 AI工作負(fù)載越多,往返云端傳輸數(shù)據(jù)所節(jié)省的電量就越多,進(jìn)而節(jié)省了能源和成本。
此外,憑借創(chuàng)新性、定制化與高能效的獨(dú)特優(yōu)勢(shì),Arm已成為數(shù)據(jù)中心架構(gòu)的關(guān)鍵力量。工作負(fù)載的持續(xù)演進(jìn)、技術(shù)的快速創(chuàng)新,以及AI 需求的日益增長(zhǎng),共同推動(dòng)了Arm架構(gòu)在數(shù)據(jù)中心領(lǐng)域持續(xù)發(fā)揮關(guān)鍵作用,與此同時(shí),也推動(dòng)了像微軟、亞馬遜云科技(AWS)和Google這樣的全球超大規(guī)模云服務(wù)提供商日益依賴基于Arm架構(gòu)的定制芯片解決方案。盡管x86處理器仍將扮演重要角色,但轉(zhuǎn)向Arm架構(gòu)解決方案的勢(shì)頭正在不斷加速。
Arm高級(jí)副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理Mohamed Awad此前曾表示,據(jù)預(yù)計(jì),2025年出貨到頭部超大規(guī)模云服務(wù)提供商的算力中,將有近50%是基于Arm架構(gòu)。屆時(shí),Arm從移動(dòng)設(shè)備邁向數(shù)據(jù)中心核心領(lǐng)域的征程,也將抵達(dá)一個(gè)關(guān)鍵里程碑。這預(yù)示著一個(gè)全新時(shí)代的到來——一個(gè)以多樣化、高能效、高度定制化的計(jì)算解決方案來滿足數(shù)字時(shí)代持續(xù)演進(jìn)需求的時(shí)代。