亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

Arm Lumex CSS重磅發(fā)布 鋪就端側(cè)AI未來智路

來源:愛集微 #Arm#
4796

9月10日,全球兩場重磅發(fā)布會掀起本月科技圈發(fā)布會的序幕。一邊,是大洋彼岸搭載A19系列的全新旗艦iPhone 17閃亮登場,憑借新一代硬件升級引發(fā)廣泛關(guān)注;另一邊,是中國上海Arm Unlocked 2025 技術(shù)峰會上,Arm Lumex CSS計算平臺重磅發(fā)布,全新一代旗艦CPU、GPU、SME2技術(shù)同步亮相,為端側(cè)AI的發(fā)展和規(guī)模普及帶來強(qiáng)大動能。

Lumex CSS:Arm最強(qiáng)CPU與GPU雙登場,看準(zhǔn)端側(cè)AI計算的發(fā)展

AI從云端向端側(cè)遷移的趨勢,正在為芯片產(chǎn)業(yè)帶來全新的挑戰(zhàn):3nm等先進(jìn)工藝節(jié)點上的設(shè)計復(fù)雜度大幅提升;芯片有限尺寸下,面積控制和散熱效率的平衡要求愈發(fā)嚴(yán)苛;為保持AI性能所采用的先進(jìn)封裝技術(shù),也對內(nèi)存、算力、帶寬、延遲等核心指標(biāo)提出一系列要求,共同構(gòu)成芯片設(shè)計行業(yè)亟待突破的新命題。其中最大的挑戰(zhàn),在于AI時代技術(shù)快速迭代,市場競爭日趨激烈下,移動端芯片和設(shè)備發(fā)布窗口的一再提前。

簡而言之,芯片設(shè)計的方式,以及終端設(shè)備的形態(tài),正因AI而重塑。

這樣的現(xiàn)實需求之下,Arm近年來推出CSS集成平臺,通過將Arm CPU和GPU IP,與物理實現(xiàn)和部署就緒的軟件棧相結(jié)合,從而加快產(chǎn)品上市進(jìn)程,并在最新的先進(jìn)工藝節(jié)點上實現(xiàn)業(yè)界領(lǐng)先的性能。而Lumex CSS則是面向移動端市場的最新成果。

這種“平臺優(yōu)先”的方法體現(xiàn)出Arm正在向計算平臺的快速轉(zhuǎn)換,這種轉(zhuǎn)換不僅體現(xiàn)在核心IP層面,也體現(xiàn)在系統(tǒng)層面。它使Arm的合作伙伴能夠更快、更自信、更輕松地集成Arm的技術(shù)——尤其是能夠便于針對AI需求而進(jìn)行擴(kuò)展。

Lumex CSS可以被視為模塊化且高度可配置的平臺。其包括:

  • 新一代Armv9.3 C1 CPU集群(雙位數(shù)IPC性能提升),內(nèi)建第二代Arm可伸縮矩陣擴(kuò)展 (SME2) 單元,顯著增強(qiáng)了CPU集群的AI能力。此次新推出的C1 CPU集群中,全新高性能旗艦CPU Arm C1-Ultra是新一代的Cortex-X925,為Arm連續(xù)六年保持兩位數(shù)性能提升的紀(jì)錄,其單線程峰值性能較上一代 Cortex-X925 CPU,提升高達(dá)25%。這一性能躍升的主要驅(qū)動力來自兩位數(shù)的每時鐘周期指令數(shù) (IPC) 增長。

  • 全新的Arm Mali G1-Ultra GPU,引入新一代光追技術(shù)實現(xiàn)桌面級的視覺效果與游戲體驗,以及實現(xiàn)更加快速的AI推理能力。

  • 新的系統(tǒng)IP包含Arm SI L1系統(tǒng)互連與Arm MMU L1系統(tǒng)內(nèi)存管理單元:其專為滿足高要求 AI 和其他計算密集型工作負(fù)載的帶寬與延遲需求而優(yōu)化,旨在消除系統(tǒng)性能瓶頸,以及降低推理密集型和計算密集型工作負(fù)載中的延遲。

  • 3nm就緒的CPU和GPU物理實現(xiàn):顯著縮短在芯片設(shè)計上實現(xiàn)旗艦級性能的進(jìn)程,助力旗艦芯片研發(fā)設(shè)計提速。

整體而言,Lumex CSS更像是一個緊密耦合的協(xié)同開發(fā)設(shè)計的整體IP解決方案,它其中包括全新的CPU、GPU、互聯(lián)、內(nèi)存管理以及系統(tǒng)IP。此外,結(jié)合KleidiAI等軟件開發(fā)工具,共同帶來性能上的強(qiáng)大表現(xiàn)以及設(shè)計上的靈活性,應(yīng)用開發(fā)上的便捷性。

不過Arm也強(qiáng)調(diào),合作伙伴可靈活選擇使用 Arm Lumex 的方式。例如,他們可直接采用 Arm 交付的平臺,并借助為其需求定制的先進(jìn)物理實現(xiàn)方案,從而獲得縮短產(chǎn)品上市時間和快速兌現(xiàn)性能價值等雙重優(yōu)勢;或者,合作伙伴也可根據(jù)他們的目標(biāo)市場,以獲取RTL交付的方式,對他們的芯片設(shè)計進(jìn)行配置,并自行完成核心模塊的硬化工作。

前者這種類似“交鑰匙”的方案,能夠極大降低芯片設(shè)計公司在AI異構(gòu)芯片設(shè)計時的門檻,提升流片成功率,使芯片設(shè)計廠商專注于打造差異化創(chuàng)新,提高產(chǎn)品市場競爭力,助力Arm的生態(tài)系統(tǒng),實現(xiàn)更加高效快速的差異化交付以及領(lǐng)先的AI體驗,推動端側(cè)AI實現(xiàn)大規(guī)模的部署。

當(dāng)前,手機(jī)、數(shù)據(jù)中心、汽車等廠商及系統(tǒng)公司,出于軟硬協(xié)同,打造差異化等原因,紛紛走向自研化芯片之路,如果完全自行開發(fā),意味著數(shù)百人的工程師團(tuán)隊、長達(dá)多年的研發(fā)投入,而通過Arm CSS,將讓這件事情變得簡單。2023年CSS方案推出以來,幫助合作伙伴將首款芯片的開發(fā)時間縮短長達(dá)12個月。

通過相對比較低的成本來實現(xiàn)專業(yè)化和差異化,并且通過芯片來創(chuàng)造最大的價值。這就是Arm的CSS平臺一經(jīng)推出便受到市場歡迎的原因。目前,Arm CSS擁有超過16個設(shè)計訂單和多個重復(fù)訂單,其中超過一半在過去一年中實現(xiàn),體現(xiàn)出市場對此的熱情和需求。

最大亮點:C1全線CPU全面啟用SME2 

過去二十年來,Arm一直致力于在CPU架構(gòu)上添加AI特性、規(guī)范和指令,提升CPU的AI和ML能力。2003年首次發(fā)布的Armv7架構(gòu)增加了高級 SIMD 擴(kuò)展,也稱為Arm Neon 指令。隨后 Armv8 架構(gòu)增加了一系列 AI 的規(guī)范和指令,包括點積指令、矢量內(nèi)矩陣乘法指令和BFloat16支持以及SVE。在Armv9-A中支持了SVE2以及SME等。

值得指出的是,此次新發(fā)布的C1 CPU系列通過 Armv9.3 架構(gòu)直接內(nèi)建第二代 Arm 可伸縮矩陣擴(kuò)展 (SME2),顯著提升了CPU的AI能力,為加速端側(cè)AI體驗帶來了革命性突破。蘋果去年發(fā)布的A18 Pro 芯片中首次采用SME,過去一年,SME一直是果系產(chǎn)品的專屬,而此次Arm將升級后的SME2注入Armv9 架構(gòu),則填補(bǔ)了安卓陣營在該技術(shù)能力上的空白,這也為后續(xù)的旗艦手機(jī)性能競爭增添了更多看點。

SME是在可伸縮向量擴(kuò)展(Scalable Vector Extensions,SVE和SVE2)的基礎(chǔ)上建立的,并增加了有效處理矩陣的能力,最初出現(xiàn)在Armv9架構(gòu)中,是一組高級CPU指令,可以明顯提升CPU處理矩陣的吞吐量和效率。

據(jù)了解,在搭載SME2增強(qiáng)硬件的設(shè)備上運行Google Gemma 3模型時,其聊天交互中的AI響應(yīng)速度比未啟用SME2的同款設(shè)備快六倍。此外,僅用單個CPU核心,Gemma 3便可在不到一秒的時間內(nèi)啟動多達(dá) 800 字的文本摘要任務(wù)。目前,一家領(lǐng)先的獨立軟件供應(yīng)商 (ISV) 已承諾將其應(yīng)用中的大部分詞元 (token) 生成工作負(fù)載從云端遷移到移動端,這在一定程度上得益于端側(cè)AI能力的持續(xù)突破。

除了性能的提升,SME2還為Arm生態(tài)系統(tǒng)(如 iOS 與安卓)提供可移植的解決方案。目前,已有 900萬款應(yīng)用在Arm計算平臺上運行,超過2200萬名軟件開發(fā)者基于Arm平臺構(gòu)建應(yīng)用和工作負(fù)載。

對于開發(fā)者而言,他們無需改動現(xiàn)有代碼、模型或應(yīng)用程序,即可直接獲取SME2帶來的性能提升。這得益于Arm的軟件加速層——Arm KleidiAI,它能夠無縫集成到主流運行時庫和 AI 框架中,為開發(fā)者提供開箱即用的性能體驗。

據(jù)Arm方面介紹,搭載SME2增強(qiáng)硬件的安卓新機(jī)即將上市,開發(fā)者可率先通過硬件加速解鎖AI性能躍升。與此同時,SME2已支持最新的iOS設(shè)備,只要應(yīng)用中使用了集成SME2的AI 框架,便可自動享受這些性能提升。

整體而言,SME技術(shù)的價值不僅在于速度的提升,更在于釋放出傳統(tǒng)CPU無法企及的AI驅(qū)動功能。SME技術(shù)體現(xiàn)出Arm在架構(gòu)方面的不斷創(chuàng)新,賦予了CPU更強(qiáng)大的AI處理能力,同時帶來更低的成本和開發(fā)門檻,也為端側(cè)AI的普及和規(guī)模擴(kuò)展奠定了基礎(chǔ)。

在Arm看來,SME2是非常適合目前移動設(shè)備的需求。

首先,通過不斷加持的指令集,SME2可以逐步提高性能和效率,同時它也能夠支持較小的數(shù)據(jù)集和數(shù)據(jù)類型,包括2位4位,隨著每年高度量化模型的不斷增多,這類小數(shù)據(jù)類型在移動生態(tài)系統(tǒng)中的重要性正日益凸顯。

其次,CPU編程語言相對固定,對于開發(fā)而言編程語言和框架相對固定,具有高度的可編程性。GPU在實際使用過程中,對于實際加速的數(shù)據(jù)類型存在限制,而且和傳統(tǒng)的AI工作流程比,GPU更多被用于圖形的工作流程中,這無疑會對模型造成一定影響。而NPU而言,并無固定標(biāo)準(zhǔn)的編程框架,其本身的算力和訴求也非常獨特,上述因素使得CPU成為AI開發(fā)的最佳負(fù)載,且具有更高的靈活性。

第三,SME2在CPU上非常擅長處理的一種負(fù)載形式,是包括機(jī)器學(xué)習(xí)等對于延遲要求非常高的AI訴求場景。由于SME2本身集成于CPU中,無需將數(shù)據(jù)推送到其他地方處理,使得其具有極高的響應(yīng)速度,非常適合目前端側(cè)AI的需求。

結(jié)語

此次Arm Lumex平臺的重磅發(fā)布,通過在CPU、GPU以及移動端平臺的創(chuàng)新,Arm再次拉高了移動計算平臺的天花板,無論是對于行業(yè)還是對于Arm自身而言都極具意義。

當(dāng)前,以手機(jī)為代表的消費電子市場正在經(jīng)歷緩慢復(fù)蘇,AI尚處于早期階段,但對于消費者而言,AI到底能夠發(fā)揮什么樣的價值,成為其購買選擇的重要動力,這一點在當(dāng)前高端手機(jī)市場已經(jīng)有所體現(xiàn)。而Arm Lumex平臺的發(fā)布,帶來的多項填補(bǔ)行業(yè)空白以及引領(lǐng)行業(yè)的創(chuàng)新,一方面極大提升了端側(cè)AI的能力,為端側(cè)AI釋放價值奠定基礎(chǔ);另一方面,也有助于推動端側(cè)AI的普及,這種AI普惠將使得全行業(yè)以及各個消費階層因此而受益。

近年來,Arm加速平臺化產(chǎn)品組合發(fā)展演進(jìn),無論是TCS,還是CSS,以及Lumex等子品牌的建立,都是這一策略下的成果。在這個過程中,Arm已成功從 “IP 供應(yīng)商” 升級為 “系統(tǒng)級方案提供商”。

得益于蓬勃發(fā)展的AI時代浪潮,轉(zhuǎn)型中的Arm 正在持續(xù)收獲成功。在剛剛過去的幾個財季,Arm的財務(wù)指標(biāo)連續(xù)創(chuàng)下季度新高,其中包括實現(xiàn)單季營收破10億美元的壯舉。在數(shù)據(jù)中心、汽車電子等新興市場也持續(xù)實現(xiàn)突破。

Lumex CSS平臺可以被視為其在端側(cè)AI時代的 重要“戰(zhàn)略錨點”。 今年是Arm架構(gòu)推出四十年,站在新的歷史節(jié)點,Arm在端側(cè)AI的影響力進(jìn)一步得到重塑,Arm品牌也因此而煥發(fā)出全新價值。


責(zé)編: 愛集微
來源:愛集微 #Arm#
THE END

*此內(nèi)容為集微網(wǎng)原創(chuàng),著作權(quán)歸集微網(wǎng)所有,愛集微,愛原創(chuàng)

關(guān)閉
加載

PDF 加載中...