自主創(chuàng)新再添利器，國(guó)產(chǎn)存算一體芯片實(shí)現(xiàn)端邊 AI 普惠

作者：張軼群 20小時(shí)前

來(lái)源：愛(ài)集微 #后摩智能# #存算一體# #AI芯片#

7月25日，WAIC 2025 前夕，后摩智能正式發(fā)布全新端邊大模型 AI 芯片——后摩漫界?M50，同步推出力擎?系列 M.2卡、力謀?系列加速卡及計(jì)算盒子等硬件組合，形成覆蓋移動(dòng)終端與邊緣場(chǎng)景的完整產(chǎn)品矩陣。M50 芯片實(shí)現(xiàn)了160TOPS@INT8、100TFLOPS@bFP16 的物理算力，搭配最大 48GB 內(nèi)存與153.6 GB/s 的超高帶寬，典型功耗僅 10W，相當(dāng)于手機(jī)快充的功率，就能讓PC、智能語(yǔ)音設(shè)備、機(jī)器人等智能移動(dòng)終端高效運(yùn)行1.5B 到 70B 參數(shù)的本地大模型，真正實(shí)現(xiàn)了"高算力、低功耗、即插即用"。

后摩智能創(chuàng)始人兼CEO吳強(qiáng)博士現(xiàn)場(chǎng)發(fā)布

當(dāng)前大模型行業(yè)正經(jīng)歷深刻變革，ChatGPT 僅用 2 年便達(dá)成 Google 11 年積累的年搜索量規(guī)模，超級(jí)應(yīng)用用戶破億的時(shí)間從手機(jī)時(shí)代的 16 年壓縮至 ChatGPT 的 2 周。行業(yè)已進(jìn)入"推理密度"與"能耗密度"雙重敏感階段，未來(lái)五年推理成本將占大模型全生命周期 80% 以上。在端邊大模型部署"最后一公里"的競(jìng)爭(zhēng)，或?qū)⒊蔀闆Q定未來(lái)產(chǎn)業(yè)格局的重要拐點(diǎn)。

高算力、高帶寬、低功耗，這三項(xiàng)看似互斥的指標(biāo)，正是存算一體技術(shù)大顯身手的主場(chǎng)，后摩智能從 2020 年就開(kāi)始深耕這一領(lǐng)域。存算一體通過(guò)把計(jì)算和存儲(chǔ)單元集成在一起，讓數(shù)據(jù)就近處理，從根本上解決了傳統(tǒng)芯片“數(shù)據(jù)傳輸慢、功耗高”的問(wèn)題。M50 芯片作為這項(xiàng)技術(shù)的集大成之作，其第二代SRAM-CIM雙端口存算架構(gòu)能讓權(quán)重加載和矩陣計(jì)算同時(shí)進(jìn)行，支持多精度混合運(yùn)算，可兼顧模型部署的各項(xiàng)需求；后摩智能自主研發(fā)的第二代 IPU 架構(gòu)——天璇，通過(guò)壓縮自適應(yīng)計(jì)算周期實(shí)現(xiàn)彈性計(jì)算（Elastic Computing），最高可提供 160% 的加速效果；通過(guò)內(nèi)建的高速多芯互聯(lián)技術(shù)，可實(shí)現(xiàn)算力與帶寬擴(kuò)展；同時(shí)適配后摩智能新一代編譯器后摩大道?，可根據(jù)芯片架構(gòu)自動(dòng)選擇最優(yōu)算子，無(wú)需開(kāi)發(fā)者手動(dòng)嘗試；支持浮點(diǎn)運(yùn)算，無(wú)需量化參數(shù)和精度調(diào)優(yōu)。和傳統(tǒng)架構(gòu)相比，M50 的能效提升 5～10 倍，完美適配了端邊設(shè)備"算得快又吃得少"的需求。

除了 M50 芯片，后摩智能此次發(fā)布的產(chǎn)品矩陣形成了覆蓋端側(cè)到邊緣的多元算力方案。力擎??LQ50 M.2 卡以口香糖大小的標(biāo)準(zhǔn) M.2 規(guī)格，為 AI PC、AI Stick、陪伴機(jī)器人等移動(dòng)終端提供 "即插即用" 的端側(cè) AI 能力，支持 7B/8B 模型推理超 25tokens/s；力擎??LQ50 Duo M.2 卡集成雙 M50 芯片，以 320TOPS 算力突破 14B/32B 大模型端側(cè)部署瓶頸；力謀?LM5050 加速卡與力謀?LM5070 加速卡分別集成 2 顆、4 顆 M50 芯片，為單機(jī)及超大模型推理提供高密度算力，最高達(dá) 640TOPS；BX50 計(jì)算盒子則以緊湊機(jī)身適配邊緣場(chǎng)景，支持 32 路視頻分析與本地大模型運(yùn)行。

這些產(chǎn)品可廣泛應(yīng)用于消費(fèi)終端、智能辦公、智能工業(yè)等多元領(lǐng)域，且均能在離線狀態(tài)下實(shí)現(xiàn)全流程本地處理，從源頭杜絕數(shù)據(jù)聯(lián)網(wǎng)傳輸風(fēng)險(xiǎn)。例如在消費(fèi)終端，賦能筆記本、平板電腦、學(xué)習(xí)機(jī)等設(shè)備本地大模型推理能力，無(wú)需聯(lián)網(wǎng)即可完成智能交互、內(nèi)容生成等任務(wù)，用戶隱私數(shù)據(jù)全程閉環(huán)留存；智能辦公場(chǎng)景中，智能會(huì)議系統(tǒng)在斷網(wǎng)環(huán)境下仍能實(shí)現(xiàn)多語(yǔ)種翻譯、紀(jì)要生成，會(huì)議內(nèi)容不觸云、不泄露；智能工業(yè)領(lǐng)域，產(chǎn)線質(zhì)檢與車路云協(xié)同通過(guò)本地算力完成實(shí)時(shí)分析決策，生產(chǎn)數(shù)據(jù)與運(yùn)營(yíng)信息在設(shè)備端閉環(huán)處理，避免云端傳輸隱患。后摩智能通過(guò)存算一體技術(shù)與大模型的深度融合，推動(dòng) AI 大模型在端邊側(cè)實(shí)現(xiàn) “離線可用、數(shù)據(jù)留痕不外露”，構(gòu)建起 “低功耗、高安全、好體驗(yàn)” 的端邊智能新生態(tài)。

面向未來(lái)，后摩智能已啟動(dòng)下一代 DRAM-PIM 技術(shù)研發(fā)，通過(guò)將計(jì)算單元直接嵌入 DRAM 陣列，使計(jì)算與存儲(chǔ)的協(xié)同更加緊密高效。該技術(shù)將突破 1TB/s 片內(nèi)帶寬，能效較現(xiàn)有水平再提升三倍，推動(dòng)百億參數(shù)大模型在終端設(shè)備實(shí)現(xiàn)普及，讓更強(qiáng)大的 AI 算力能夠融入 PC、平板等日常設(shè)備。

這樣的技術(shù)方向和發(fā)展愿景也得到了重量級(jí)產(chǎn)業(yè)方和國(guó)有資本的認(rèn)可，近兩年以來(lái)，后摩智能已經(jīng)獲得了中國(guó)移動(dòng)產(chǎn)業(yè)鏈發(fā)展基金、北京市人工智能基金，北京市亦莊產(chǎn)業(yè)升級(jí)基金、中國(guó)國(guó)有企業(yè)混改基金等多家機(jī)構(gòu)的投資，為在端邊大模型芯片領(lǐng)域的持續(xù)創(chuàng)新提供了有力支撐。后摩智能 CEO 吳強(qiáng)博士表示：“M50 的發(fā)布只是一個(gè)開(kāi)始，我們的目標(biāo)是讓大模型算力像電力一樣隨處可得、隨取隨用，真正走進(jìn)每一條產(chǎn)線、每一臺(tái)設(shè)備、每一個(gè)人的指尖。”