亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

存算一體技術(shù)加持 后摩智能M50芯片定義高能效AI標(biāo)準(zhǔn)

來(lái)源:愛(ài)集微 #后摩智能# #吳強(qiáng)# #WAIC#
2284

近年來(lái),隨著AI應(yīng)用場(chǎng)景的爆發(fā)式增長(zhǎng),AI算法對(duì)算力的需求急劇上升,傳統(tǒng)的馮?諾依曼架構(gòu)以計(jì)算為核心,處理器與存儲(chǔ)器之間的物理分離導(dǎo)致大規(guī)模數(shù)據(jù)頻繁遷移,進(jìn)一步限制了AI芯片的整體性能,難以滿足AI應(yīng)用對(duì)于低時(shí)延、高能效以及高可擴(kuò)展性的迫切需求。而存算一體技術(shù),正在成為解決這些問(wèn)題的關(guān)鍵。

一方面,學(xué)術(shù)研究領(lǐng)域,存算一體技術(shù)的相關(guān)成果不斷涌現(xiàn),另一方面,產(chǎn)業(yè)界也在積極推動(dòng)存算一體芯片的落地,其價(jià)值被越來(lái)越清晰地認(rèn)知和挖掘。

在今年的WAIC上,國(guó)內(nèi)領(lǐng)先的存算一體芯片廠商后摩智能發(fā)布了國(guó)內(nèi)首顆面向端邊大模型的存算一體AI芯片——后摩漫界M50,以行業(yè)最高能效比引發(fā)關(guān)注。

WAIC舉辦期間,后摩智能創(chuàng)始人吳強(qiáng)博士接受了媒體采訪,分享了過(guò)去幾年來(lái)在技術(shù)研發(fā)、戰(zhàn)略等方面的進(jìn)展,并就M50技術(shù)創(chuàng)新亮點(diǎn)進(jìn)行了介紹。

錨定端邊大模型AI計(jì)算賽道

后摩智能成立于2020年年底,專注于端側(cè)AI芯片的研發(fā),利用存算一體傳統(tǒng)技術(shù)架構(gòu)打造高能效低功耗AI芯片。

四年前后摩智能成立時(shí),存算一體賽道國(guó)內(nèi)鮮有相關(guān)的企業(yè),該技術(shù)在行業(yè)中也很少被主流公司提及,并未受到廣泛關(guān)注。選擇這條賽道,吳強(qiáng)稱一方面與求學(xué)期間的高能效比計(jì)算芯片研究方向一致,AI時(shí)代解決功耗墻和存儲(chǔ)墻的問(wèn)題,存算一體是必須走的一條路徑。另一方面,中國(guó)芯片企業(yè)參與全球競(jìng)爭(zhēng),實(shí)現(xiàn)彎道超車,需要有創(chuàng)新架構(gòu),才可能另辟蹊徑。

和眾多高科技初創(chuàng)公司一樣,后摩智能也經(jīng)歷過(guò)創(chuàng)業(yè)初期的陣痛。盡管2022年摩智能便推出首款面向智能駕駛領(lǐng)域的存算一體大算力芯片,但由于產(chǎn)品性能和成本與市場(chǎng)需求產(chǎn)生錯(cuò)配,并未一炮打響。

隨后,后摩智能調(diào)整策略和定位,聚焦于端邊側(cè)AI,致力于成為端邊大模型AI芯片的領(lǐng)跑者。

吳強(qiáng)表示,過(guò)去兩年,行業(yè)最大的變化是大模型,后摩智能團(tuán)隊(duì)也投入大量時(shí)間進(jìn)行大模型時(shí)代計(jì)算需求和行業(yè)應(yīng)用的研究。

“大模型在AI應(yīng)用中既要計(jì)算密集,又要計(jì)算帶寬面積,而存算一體本身解決的問(wèn)題也正是如此,因此從2023年開(kāi)始,特別是針對(duì)大模型與存算一體的結(jié)合,后摩團(tuán)隊(duì)投入很多資源研究架構(gòu)、設(shè)計(jì),包括量化等方面?!眳菑?qiáng)說(shuō)。

兩年來(lái),圍繞上述研究?jī)?nèi)容,后摩智能在ISCA/ISSCC等國(guó)際頂會(huì)上陸續(xù)發(fā)表了30余篇學(xué)術(shù)論文。今年7月,與北京大學(xué)團(tuán)隊(duì)合作的“面向邊緣側(cè)的H2-LLM推理加速架構(gòu)”論文,在計(jì)算架構(gòu)國(guó)際頂會(huì)ISCA上獲得年度最佳論文獎(jiǎng)。

在吳強(qiáng)看來(lái),大模型在整個(gè)產(chǎn)品的底層邏輯上,跟互聯(lián)網(wǎng)時(shí)代的產(chǎn)品顯著不同,更加快速,直接的創(chuàng)造生產(chǎn)力,可以在很快的時(shí)間內(nèi)變成超級(jí)應(yīng)用。同時(shí),因?yàn)樘幚淼臄?shù)據(jù)量大,大模型更依賴于算力,對(duì)計(jì)算效率的依賴非常大。

吳強(qiáng)認(rèn)為,未來(lái)大模型發(fā)展有兩個(gè)重要趨勢(shì)方向:一是大模型的重心逐漸從訓(xùn)練向推理遷移。二是從云端智能向邊緣側(cè)端側(cè)發(fā)展,形成端邊和云端的協(xié)同。90%的數(shù)據(jù)處理可能在端邊,只有10%的復(fù)雜任務(wù)在云端完成。端邊AI有很多先天優(yōu)勢(shì),比如更好的實(shí)時(shí)響應(yīng),更低的成本,更安全的數(shù)據(jù)隱私以及更好的個(gè)人用戶體驗(yàn)等。

“存算一體技術(shù)的原生優(yōu)勢(shì),適合以計(jì)算為核心,且對(duì)帶寬要求極高的場(chǎng)景,后摩智能對(duì)AI計(jì)算場(chǎng)景有深刻的理解與技術(shù)積累。正因如此,我們聚焦端側(cè)大模型的AI計(jì)算,希望能夠讓存算一體和大模型形成共振,釋放出更大勢(shì)能?!眳菑?qiáng)說(shuō)。

最高能效比端邊大模型AI芯片如何打造?

在今年的世界人工智能大會(huì)期間,摩智能正式發(fā)布全新端邊大模型AI芯片——后摩漫界M50。經(jīng)過(guò)兩年潛心研發(fā),后摩智能后交出首份亮眼答卷。

M50芯片實(shí)現(xiàn)了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內(nèi)存與153.6 GB/s的超高帶寬,典型功耗僅10W。是目前市場(chǎng)上能效比最高的端邊大模型AI芯片,和傳統(tǒng)架構(gòu)相比,M50的能效提升5~10倍。M50預(yù)計(jì)今年Q4量產(chǎn)交付。

M50的技術(shù)創(chuàng)新突破還包括:

M50采用第二代SRAM-CIM雙端口存算架構(gòu),實(shí)現(xiàn)權(quán)重加載和矩陣計(jì)算同時(shí)進(jìn)行;

靈活的存算分離可測(cè)性設(shè)計(jì),測(cè)試覆蓋率超過(guò)99%;

支持多精度混合運(yùn)算,可兼顧模型部署的各項(xiàng)需求;

雙電源軌設(shè)計(jì),大幅緩解PI風(fēng)險(xiǎn)。

在邊端場(chǎng)景下,實(shí)現(xiàn)高算力、高帶寬和低功耗的兼顧并不容易。之所以取得這樣的成績(jī),吳強(qiáng)表示,一方面主要在于多年來(lái)后摩智能在存算IP方面的技術(shù)創(chuàng)新和積累。另一方面,是在IPU層面的不斷打磨和完善。

吳強(qiáng)進(jìn)一步介紹,M50采用的是后摩智能對(duì)外發(fā)布的第二代存算一體IP。通過(guò)多項(xiàng)創(chuàng)新,實(shí)現(xiàn)效率的顯著提升,其中包括很多自研創(chuàng)新技術(shù)突破。包括雙端口加載和計(jì)算定型以及量產(chǎn),全自研CBIST和MBIST檢測(cè)與修復(fù)等,保持電源穩(wěn)定性等,很多都是沒(méi)有既往經(jīng)驗(yàn)的基礎(chǔ)上逐步探索而來(lái),后摩智能也申請(qǐng)了多項(xiàng)專利。

而如何高效使用IP,則考驗(yàn)AI處理器或者是IPU的設(shè)計(jì)能力。在M50中,后摩智能也引入了自研二代IPU的架構(gòu)設(shè)計(jì)——天璇。天璇面向邊端AI大模型應(yīng)用,進(jìn)行了特定優(yōu)化,具備更靈活的擴(kuò)展性,對(duì)大模型更友好。

通過(guò)壓縮自適應(yīng)計(jì)算周期實(shí)現(xiàn)彈性計(jì)算(Elastic Computing),天璇最高可提供160%的加速效果。通過(guò)內(nèi)建的高速多芯互聯(lián)技術(shù),可實(shí)現(xiàn)算力與帶寬擴(kuò)展。

此外,天璇架構(gòu)的另一個(gè)優(yōu)勢(shì)在于,除特殊場(chǎng)景需要額外量化外,浮點(diǎn)模型無(wú)需先量化再計(jì)算,可直接運(yùn)行,提升應(yīng)用效率。

“在存算架構(gòu)上直接進(jìn)行浮點(diǎn)計(jì)算,并實(shí)現(xiàn)芯片量產(chǎn),后摩智能應(yīng)該是行業(yè)首個(gè),通過(guò)這個(gè)架構(gòu)優(yōu)化,能夠大大加快應(yīng)用落地的速度?!眳菑?qiáng)表示。

在軟件方面,M50搭配后摩智能推出新一代編譯器——后摩大道,基于底層編譯架構(gòu)重構(gòu),非常靈活易用,支持主流深度學(xué)習(xí)架構(gòu),同時(shí)盡可能兼容CUDA Runtime。同時(shí),可根據(jù)芯片架構(gòu)自動(dòng)選擇最優(yōu)算子,無(wú)需開(kāi)發(fā)者手動(dòng)嘗試。此外,后摩大道提供原生浮點(diǎn)算力支持,無(wú)需量化參數(shù)和精度調(diào)優(yōu)。

拓展產(chǎn)品組合 使能邊端大模型應(yīng)用場(chǎng)景

除了M50之外,此次后摩智能還發(fā)布了基于M50的系列配套產(chǎn)品,包括面向終端的力擎系列M.2卡,針對(duì)邊緣側(cè)的力謀加速卡系列,以及計(jì)算盒子等硬件組合,形成覆蓋移動(dòng)終端與邊緣場(chǎng)景的完整產(chǎn)品矩陣。

其中,力擎LQ50 M.2卡擁有只有一口香糖大小的小巧尺寸,但性能強(qiáng)悍,具有160TOPS的算力,單芯片支持7B/8B模型推理超25tokens/s,最高支持48GB內(nèi)存,功耗僅13瓦,為AI PC、AI Stick、陪伴機(jī)器人等移動(dòng)終端提供 "即插即用" 的端側(cè)AI能力。而雙芯形態(tài)力擎LQ50 DUO M.2卡具有320TOPS算力,最高支持96GB存儲(chǔ),能夠有效支持多模態(tài)百億參數(shù)模型在端邊運(yùn)行。

而對(duì)于邊緣場(chǎng)景,力謀LM5050加速卡、力謀LM5070加速卡則擁有半高半長(zhǎng)、全高全長(zhǎng)尺寸。分別集成2顆和4顆M50,提供從320TOPS到640TOPS算力的支持,支持70B-140B參數(shù)模型。

此外,邊緣側(cè)新品還包括BX50智能計(jì)算盒,具有豐富的接口,并且支持安全加密等功能,適用于信創(chuàng)市場(chǎng)等領(lǐng)域。

“希望通過(guò)采用原方案+AI的模式,使能邊端大模型的應(yīng)用場(chǎng)景。通過(guò)適配Arm,X86、LInux等不同架構(gòu),以及Widnows、麒麟等操作系統(tǒng),形成一個(gè)可以滿足多元化需求的產(chǎn)品和解決方案?!眳菑?qiáng)說(shuō)。

據(jù)了解,M50屬于需求驅(qū)動(dòng),關(guān)鍵指標(biāo)都是由后摩智能以及頭部客戶共同定義,對(duì)于場(chǎng)景落地更加具有針對(duì)性。產(chǎn)品推出后受到市場(chǎng)的關(guān)注,目前意向客戶包括聯(lián)想、訊飛聽(tīng)見(jiàn)、中國(guó)移動(dòng)等。

據(jù)吳強(qiáng)介紹,后摩智能的端邊大模型AI芯片以及相關(guān)產(chǎn)品,可以廣泛應(yīng)用在Pad/PC、智能語(yǔ)音設(shè)備、陪伴機(jī)器人、車載大模型域控、AI Stick拓展塢、計(jì)算盒子、邊緣計(jì)算一體機(jī)等場(chǎng)景,助力消費(fèi)終端、智能辦公和智能工業(yè)等領(lǐng)域的產(chǎn)業(yè)升級(jí)。

會(huì)上,后摩智能還進(jìn)行了M50相關(guān)產(chǎn)品在一些應(yīng)用場(chǎng)景方面的演示。

一是基于千問(wèn)3-14B模型的知識(shí)問(wèn)答應(yīng)用。二是會(huì)議紀(jì)要,基于千問(wèn)3-8B的模型,能夠識(shí)別不同發(fā)言人的內(nèi)容,一個(gè)小時(shí)會(huì)議在5-6分鐘完成會(huì)議紀(jì)要、待辦事項(xiàng)等的生成。三是公文寫(xiě)作,在完全國(guó)產(chǎn)信創(chuàng)系統(tǒng)的基礎(chǔ)上,運(yùn)行千問(wèn)2.5-7B模型。

圍繞上述場(chǎng)景,吳強(qiáng)表示,主要是圍繞大模型對(duì)于生產(chǎn)力帶來(lái)的變革,目前比較看重Pad和PC、智能語(yǔ)音設(shè)備等方面的應(yīng)用。此外,盡管具身智能目前還處于早期,但作為新興賽道代表著未來(lái)的方向,后摩智能愿意為其提前布局。

啟動(dòng)下一代DRAM-PIM技術(shù)研發(fā) 首顆芯片有望明年問(wèn)世

成立至今,存算一體技術(shù)一直是后摩智能的立身之本。在保持技術(shù)理念的同時(shí),后摩智能也不斷地去構(gòu)建更加完整的計(jì)算技術(shù)體系。

據(jù)吳強(qiáng)透露,一年前,后摩智能逐漸從SRAM CIM存內(nèi)計(jì)算技術(shù)向Dram PIM技術(shù)拓展,使計(jì)算與存儲(chǔ)的協(xié)同更加緊密高效,并進(jìn)行全方位的布局。

據(jù)集微網(wǎng)了解,DRAM PIM有兩種技術(shù)架構(gòu),一種是On-Die PIM,在DRAM DIe內(nèi)部直接布局計(jì)算單元,通常需要重構(gòu)存儲(chǔ)陣列和外圍電路。一種是通過(guò)3D封裝技術(shù),將獨(dú)立的邏輯層與FRAM層堆疊,計(jì)算單元位于邏輯層。兩種方式對(duì)應(yīng)不同的成本和性能,適合不同的應(yīng)用場(chǎng)景。

而通過(guò)將計(jì)算單元直接嵌入DRAM陣列的方式(On-Die PIM),將突破1TB/s片內(nèi)帶寬,能效較現(xiàn)有水平再提升三倍,推動(dòng)百億參數(shù)大模型在終端設(shè)備實(shí)現(xiàn)普及,讓更強(qiáng)大的AI算力能夠融入PC、平板等日常設(shè)備。

吳強(qiáng)稱明年Q3左右,后摩智能基于DRAM PIM技術(shù)的首顆芯片產(chǎn)品將有望問(wèn)世。

在完善技術(shù)布局的同時(shí),近年來(lái)后摩智能也得到穩(wěn)健發(fā)展。自2022年起,后摩智能相繼完成PreA、A和A+三輪融資,主要投資方包括聯(lián)想創(chuàng)投、君海創(chuàng)新、中移資本等。近期,后摩智能獲得了北京國(guó)有資本,亦莊國(guó)投等機(jī)構(gòu)的資本支持,也表明了其技術(shù)發(fā)展方向和愿景得到了重量級(jí)產(chǎn)業(yè)方和國(guó)有資本的認(rèn)可。

吳強(qiáng)表示:“M50的發(fā)布只是一個(gè)開(kāi)始,我們的目標(biāo)是讓大模型算力像電力一樣隨處可得、隨取隨用,真正走進(jìn)每一條產(chǎn)線、每一臺(tái)設(shè)備、每一個(gè)人的指尖?!?/p>

責(zé)編: 姜羽桐
來(lái)源:愛(ài)集微 #后摩智能# #吳強(qiáng)# #WAIC#
THE END

*此內(nèi)容為集微網(wǎng)原創(chuàng),著作權(quán)歸集微網(wǎng)所有,愛(ài)集微,愛(ài)原創(chuàng)

張軼群

微信:zyqjordan23

郵箱:zhangyq@ijiwei.com

集微網(wǎng)記者,關(guān)注IC產(chǎn)業(yè),深度報(bào)道、企業(yè)報(bào)道


1838文章總數(shù)
536.6w總瀏覽量
最新資訊
關(guān)閉
加載

PDF 加載中...