存算一體技術(shù)加持后摩智能M50芯片定義高能效AI標(biāo)準(zhǔn)

作者：張軼群 12小時(shí)前

來(lái)源：愛(ài)集微 #后摩智能# #吳強(qiáng)# #WAIC#

2284

近年來(lái)，隨著AI應(yīng)用場(chǎng)景的爆發(fā)式增長(zhǎng)，AI算法對(duì)算力的需求急劇上升，傳統(tǒng)的馮?諾依曼架構(gòu)以計(jì)算為核心，處理器與存儲(chǔ)器之間的物理分離導(dǎo)致大規(guī)模數(shù)據(jù)頻繁遷移，進(jìn)一步限制了AI芯片的整體性能，難以滿足AI應(yīng)用對(duì)于低時(shí)延、高能效以及高可擴(kuò)展性的迫切需求。而存算一體技術(shù)，正在成為解決這些問(wèn)題的關(guān)鍵。

一方面，學(xué)術(shù)研究領(lǐng)域，存算一體技術(shù)的相關(guān)成果不斷涌現(xiàn)，另一方面，產(chǎn)業(yè)界也在積極推動(dòng)存算一體芯片的落地，其價(jià)值被越來(lái)越清晰地認(rèn)知和挖掘。

在今年的WAIC上，國(guó)內(nèi)領(lǐng)先的存算一體芯片廠商后摩智能發(fā)布了國(guó)內(nèi)首顆面向端邊大模型的存算一體AI芯片——后摩漫界M50，以行業(yè)最高能效比引發(fā)關(guān)注。

WAIC舉辦期間，后摩智能創(chuàng)始人吳強(qiáng)博士接受了媒體采訪，分享了過(guò)去幾年來(lái)在技術(shù)研發(fā)、戰(zhàn)略等方面的進(jìn)展，并就M50技術(shù)創(chuàng)新亮點(diǎn)進(jìn)行了介紹。

錨定端邊大模型AI計(jì)算賽道

后摩智能成立于2020年年底，專注于端側(cè)AI芯片的研發(fā)，利用存算一體傳統(tǒng)技術(shù)架構(gòu)打造高能效低功耗AI芯片。

四年前后摩智能成立時(shí)，存算一體賽道國(guó)內(nèi)鮮有相關(guān)的企業(yè)，該技術(shù)在行業(yè)中也很少被主流公司提及，并未受到廣泛關(guān)注。選擇這條賽道，吳強(qiáng)稱一方面與求學(xué)期間的高能效比計(jì)算芯片研究方向一致，AI時(shí)代解決功耗墻和存儲(chǔ)墻的問(wèn)題，存算一體是必須走的一條路徑。另一方面，中國(guó)芯片企業(yè)參與全球競(jìng)爭(zhēng)，實(shí)現(xiàn)彎道超車，需要有創(chuàng)新架構(gòu)，才可能另辟蹊徑。

和眾多高科技初創(chuàng)公司一樣，后摩智能也經(jīng)歷過(guò)創(chuàng)業(yè)初期的陣痛。盡管2022年摩智能便推出首款面向智能駕駛領(lǐng)域的存算一體大算力芯片，但由于產(chǎn)品性能和成本與市場(chǎng)需求產(chǎn)生錯(cuò)配，并未一炮打響。

隨后，后摩智能調(diào)整策略和定位，聚焦于端邊側(cè)AI，致力于成為端邊大模型AI芯片的領(lǐng)跑者。

吳強(qiáng)表示，過(guò)去兩年，行業(yè)最大的變化是大模型，后摩智能團(tuán)隊(duì)也投入大量時(shí)間進(jìn)行大模型時(shí)代計(jì)算需求和行業(yè)應(yīng)用的研究。

“大模型在AI應(yīng)用中既要計(jì)算密集，又要計(jì)算帶寬面積，而存算一體本身解決的問(wèn)題也正是如此，因此從2023年開(kāi)始，特別是針對(duì)大模型與存算一體的結(jié)合，后摩團(tuán)隊(duì)投入很多資源研究架構(gòu)、設(shè)計(jì)，包括量化等方面?！眳菑?qiáng)說(shuō)。

兩年來(lái)，圍繞上述研究?jī)?nèi)容，后摩智能在ISCA/ISSCC等國(guó)際頂會(huì)上陸續(xù)發(fā)表了30余篇學(xué)術(shù)論文。今年7月，與北京大學(xué)團(tuán)隊(duì)合作的“面向邊緣側(cè)的H2-LLM推理加速架構(gòu)”論文，在計(jì)算架構(gòu)國(guó)際頂會(huì)ISCA上獲得年度最佳論文獎(jiǎng)。

在吳強(qiáng)看來(lái)，大模型在整個(gè)產(chǎn)品的底層邏輯上，跟互聯(lián)網(wǎng)時(shí)代的產(chǎn)品顯著不同，更加快速，直接的創(chuàng)造生產(chǎn)力，可以在很快的時(shí)間內(nèi)變成超級(jí)應(yīng)用。同時(shí)，因?yàn)樘幚淼臄?shù)據(jù)量大，大模型更依賴于算力，對(duì)計(jì)算效率的依賴非常大。

吳強(qiáng)認(rèn)為，未來(lái)大模型發(fā)展有兩個(gè)重要趨勢(shì)方向：一是大模型的重心逐漸從訓(xùn)練向推理遷移。二是從云端智能向邊緣側(cè)端側(cè)發(fā)展，形成端邊和云端的協(xié)同。90%的數(shù)據(jù)處理可能在端邊，只有10%的復(fù)雜任務(wù)在云端完成。端邊AI有很多先天優(yōu)勢(shì)，比如更好的實(shí)時(shí)響應(yīng)，更低的成本，更安全的數(shù)據(jù)隱私以及更好的個(gè)人用戶體驗(yàn)等。

“存算一體技術(shù)的原生優(yōu)勢(shì)，適合以計(jì)算為核心，且對(duì)帶寬要求極高的場(chǎng)景，后摩智能對(duì)AI計(jì)算場(chǎng)景有深刻的理解與技術(shù)積累。正因如此，我們聚焦端側(cè)大模型的AI計(jì)算，希望能夠讓存算一體和大模型形成共振，釋放出更大勢(shì)能?！眳菑?qiáng)說(shuō)。

最高能效比端邊大模型AI芯片如何打造？

在今年的世界人工智能大會(huì)期間，摩智能正式發(fā)布全新端邊大模型AI芯片——后摩漫界M50。經(jīng)過(guò)兩年潛心研發(fā)，后摩智能后交出首份亮眼答卷。

M50芯片實(shí)現(xiàn)了160TOPS@INT8、100TFLOPS@bFP16的物理算力，搭配最大48GB內(nèi)存與153.6 GB/s的超高帶寬，典型功耗僅10W。是目前市場(chǎng)上能效比最高的端邊大模型AI芯片，和傳統(tǒng)架構(gòu)相比，M50的能效提升5~10倍。M50預(yù)計(jì)今年Q4量產(chǎn)交付。

M50的技術(shù)創(chuàng)新突破還包括：

M50采用第二代SRAM-CIM雙端口存算架構(gòu)，實(shí)現(xiàn)權(quán)重加載和矩陣計(jì)算同時(shí)進(jìn)行；

靈活的存算分離可測(cè)性設(shè)計(jì)，測(cè)試覆蓋率超過(guò)99%；

支持多精度混合運(yùn)算，可兼顧模型部署的各項(xiàng)需求；

雙電源軌設(shè)計(jì)，大幅緩解PI風(fēng)險(xiǎn)。

在邊端場(chǎng)景下，實(shí)現(xiàn)高算力、高帶寬和低功耗的兼顧并不容易。之所以取得這樣的成績(jī)，吳強(qiáng)表示，一方面主要在于多年來(lái)后摩智能在存算IP方面的技術(shù)創(chuàng)新和積累。另一方面，是在IPU層面的不斷打磨和完善。

吳強(qiáng)進(jìn)一步介紹，M50采用的是后摩智能對(duì)外發(fā)布的第二代存算一體IP。通過(guò)多項(xiàng)創(chuàng)新，實(shí)現(xiàn)效率的顯著提升，其中包括很多自研創(chuàng)新技術(shù)突破。包括雙端口加載和計(jì)算定型以及量產(chǎn)，全自研CBIST和MBIST檢測(cè)與修復(fù)等，保持電源穩(wěn)定性等，很多都是沒(méi)有既往經(jīng)驗(yàn)的基礎(chǔ)上逐步探索而來(lái)，后摩智能也申請(qǐng)了多項(xiàng)專利。

而如何高效使用IP，則考驗(yàn)AI處理器或者是IPU的設(shè)計(jì)能力。在M50中，后摩智能也引入了自研二代IPU的架構(gòu)設(shè)計(jì)——天璇。天璇面向邊端AI大模型應(yīng)用，進(jìn)行了特定優(yōu)化，具備更靈活的擴(kuò)展性，對(duì)大模型更友好。

通過(guò)壓縮自適應(yīng)計(jì)算周期實(shí)現(xiàn)彈性計(jì)算（Elastic Computing），天璇最高可提供160%的加速效果。通過(guò)內(nèi)建的高速多芯互聯(lián)技術(shù)，可實(shí)現(xiàn)算力與帶寬擴(kuò)展。

此外，天璇架構(gòu)的另一個(gè)優(yōu)勢(shì)在于，除特殊場(chǎng)景需要額外量化外，浮點(diǎn)模型無(wú)需先量化再計(jì)算，可直接運(yùn)行，提升應(yīng)用效率。

“在存算架構(gòu)上直接進(jìn)行浮點(diǎn)計(jì)算，并實(shí)現(xiàn)芯片量產(chǎn)，后摩智能應(yīng)該是行業(yè)首個(gè)，通過(guò)這個(gè)架構(gòu)優(yōu)化，能夠大大加快應(yīng)用落地的速度?！眳菑?qiáng)表示。

在軟件方面，M50搭配后摩智能推出新一代編譯器——后摩大道，基于底層編譯架構(gòu)重構(gòu)，非常靈活易用，支持主流深度學(xué)習(xí)架構(gòu)，同時(shí)盡可能兼容CUDA Runtime。同時(shí)，可根據(jù)芯片架構(gòu)自動(dòng)選擇最優(yōu)算子，無(wú)需開(kāi)發(fā)者手動(dòng)嘗試。此外，后摩大道提供原生浮點(diǎn)算力支持，無(wú)需量化參數(shù)和精度調(diào)優(yōu)。

拓展產(chǎn)品組合使能邊端大模型應(yīng)用場(chǎng)景

除了M50之外，此次后摩智能還發(fā)布了基于M50的系列配套產(chǎn)品，包括面向終端的力擎系列M.2卡，針對(duì)邊緣側(cè)的力謀加速卡系列，以及計(jì)算盒子等硬件組合，形成覆蓋移動(dòng)終端與邊緣場(chǎng)景的完整產(chǎn)品矩陣。

其中，力擎LQ50 M.2卡擁有只有一口香糖大小的小巧尺寸，但性能強(qiáng)悍，具有160TOPS的算力，單芯片支持7B/8B模型推理超25tokens/s，最高支持48GB內(nèi)存，功耗僅13瓦，為AI PC、AI Stick、陪伴機(jī)器人等移動(dòng)終端提供 "即插即用" 的端側(cè)AI能力。而雙芯形態(tài)力擎LQ50 DUO M.2卡具有320TOPS算力，最高支持96GB存儲(chǔ)，能夠有效支持多模態(tài)百億參數(shù)模型在端邊運(yùn)行。

而對(duì)于邊緣場(chǎng)景，力謀LM5050加速卡、力謀LM5070加速卡則擁有半高半長(zhǎng)、全高全長(zhǎng)尺寸。分別集成2顆和4顆M50，提供從320TOPS到640TOPS算力的支持，支持70B-140B參數(shù)模型。

此外，邊緣側(cè)新品還包括BX50智能計(jì)算盒，具有豐富的接口，并且支持安全加密等功能，適用于信創(chuàng)市場(chǎng)等領(lǐng)域。

“希望通過(guò)采用原方案+AI的模式，使能邊端大模型的應(yīng)用場(chǎng)景。通過(guò)適配Arm，X86、LInux等不同架構(gòu)，以及Widnows、麒麟等操作系統(tǒng)，形成一個(gè)可以滿足多元化需求的產(chǎn)品和解決方案?！眳菑?qiáng)說(shuō)。

據(jù)了解，M50屬于需求驅(qū)動(dòng)，關(guān)鍵指標(biāo)都是由后摩智能以及頭部客戶共同定義，對(duì)于場(chǎng)景落地更加具有針對(duì)性。產(chǎn)品推出后受到市場(chǎng)的關(guān)注，目前意向客戶包括聯(lián)想、訊飛聽(tīng)見(jiàn)、中國(guó)移動(dòng)等。

據(jù)吳強(qiáng)介紹，后摩智能的端邊大模型AI芯片以及相關(guān)產(chǎn)品，可以廣泛應(yīng)用在Pad/PC、智能語(yǔ)音設(shè)備、陪伴機(jī)器人、車載大模型域控、AI Stick拓展塢、計(jì)算盒子、邊緣計(jì)算一體機(jī)等場(chǎng)景，助力消費(fèi)終端、智能辦公和智能工業(yè)等領(lǐng)域的產(chǎn)業(yè)升級(jí)。

會(huì)上，后摩智能還進(jìn)行了M50相關(guān)產(chǎn)品在一些應(yīng)用場(chǎng)景方面的演示。

一是基于千問(wèn)3-14B模型的知識(shí)問(wèn)答應(yīng)用。二是會(huì)議紀(jì)要，基于千問(wèn)3-8B的模型，能夠識(shí)別不同發(fā)言人的內(nèi)容，一個(gè)小時(shí)會(huì)議在5-6分鐘完成會(huì)議紀(jì)要、待辦事項(xiàng)等的生成。三是公文寫(xiě)作，在完全國(guó)產(chǎn)信創(chuàng)系統(tǒng)的基礎(chǔ)上，運(yùn)行千問(wèn)2.5-7B模型。

圍繞上述場(chǎng)景，吳強(qiáng)表示，主要是圍繞大模型對(duì)于生產(chǎn)力帶來(lái)的變革，目前比較看重Pad和PC、智能語(yǔ)音設(shè)備等方面的應(yīng)用。此外，盡管具身智能目前還處于早期，但作為新興賽道代表著未來(lái)的方向，后摩智能愿意為其提前布局。

啟動(dòng)下一代DRAM-PIM技術(shù)研發(fā) 首顆芯片有望明年問(wèn)世

成立至今，存算一體技術(shù)一直是后摩智能的立身之本。在保持技術(shù)理念的同時(shí)，后摩智能也不斷地去構(gòu)建更加完整的計(jì)算技術(shù)體系。

據(jù)吳強(qiáng)透露，一年前，后摩智能逐漸從SRAM CIM存內(nèi)計(jì)算技術(shù)向Dram PIM技術(shù)拓展，使計(jì)算與存儲(chǔ)的協(xié)同更加緊密高效，并進(jìn)行全方位的布局。

據(jù)集微網(wǎng)了解，DRAM PIM有兩種技術(shù)架構(gòu)，一種是On-Die PIM，在DRAM DIe內(nèi)部直接布局計(jì)算單元，通常需要重構(gòu)存儲(chǔ)陣列和外圍電路。一種是通過(guò)3D封裝技術(shù)，將獨(dú)立的邏輯層與FRAM層堆疊，計(jì)算單元位于邏輯層。兩種方式對(duì)應(yīng)不同的成本和性能，適合不同的應(yīng)用場(chǎng)景。

而通過(guò)將計(jì)算單元直接嵌入DRAM陣列的方式（On-Die PIM），將突破1TB/s片內(nèi)帶寬，能效較現(xiàn)有水平再提升三倍，推動(dòng)百億參數(shù)大模型在終端設(shè)備實(shí)現(xiàn)普及，讓更強(qiáng)大的AI算力能夠融入PC、平板等日常設(shè)備。

吳強(qiáng)稱明年Q3左右，后摩智能基于DRAM PIM技術(shù)的首顆芯片產(chǎn)品將有望問(wèn)世。

在完善技術(shù)布局的同時(shí)，近年來(lái)后摩智能也得到穩(wěn)健發(fā)展。自2022年起，后摩智能相繼完成PreA、A和A+三輪融資，主要投資方包括聯(lián)想創(chuàng)投、君海創(chuàng)新、中移資本等。近期，后摩智能獲得了北京國(guó)有資本，亦莊國(guó)投等機(jī)構(gòu)的資本支持，也表明了其技術(shù)發(fā)展方向和愿景得到了重量級(jí)產(chǎn)業(yè)方和國(guó)有資本的認(rèn)可。

吳強(qiáng)表示：“M50的發(fā)布只是一個(gè)開(kāi)始，我們的目標(biāo)是讓大模型算力像電力一樣隨處可得、隨取隨用，真正走進(jìn)每一條產(chǎn)線、每一臺(tái)設(shè)備、每一個(gè)人的指尖?！?/p>