7月25日,WAIC 2025 前夕,后摩智能正式發(fā)布全新端邊大模型 AI 芯片——后摩漫界?M50,同步推出力擎?系列 M.2卡、力謀?系列加速卡及計(jì)算盒子等硬件組合,形成覆蓋移動(dòng)終端與邊緣場(chǎng)景的完整產(chǎn)品矩陣。M50 芯片實(shí)現(xiàn)了160TOPS@INT8、100TFLOPS@bFP16 的物理算力,搭配最大 48GB 內(nèi)存與153.6 GB/s 的超高帶寬,典型功耗僅 10W,相當(dāng)于手機(jī)快充的功率,就能讓PC、智能語(yǔ)音設(shè)備、機(jī)器人等智能移動(dòng)終端高效運(yùn)行1.5B 到 70B 參數(shù)的本地大模型,真正實(shí)現(xiàn)了"高算力、低功耗、即插即用"。
后摩智能創(chuàng)始人兼CEO吳強(qiáng)博士現(xiàn)場(chǎng)發(fā)布
當(dāng)前大模型行業(yè)正經(jīng)歷深刻變革,ChatGPT 僅用 2 年便達(dá)成 Google 11 年積累的年搜索量規(guī)模,超級(jí)應(yīng)用用戶破億的時(shí)間從手機(jī)時(shí)代的 16 年壓縮至 ChatGPT 的 2 周。行業(yè)已進(jìn)入"推理密度"與"能耗密度"雙重敏感階段,未來(lái)五年推理成本將占大模型全生命周期 80% 以上。在端邊大模型部署"最后一公里"的競(jìng)爭(zhēng),或?qū)⒊蔀闆Q定未來(lái)產(chǎn)業(yè)格局的重要拐點(diǎn)。
高算力、高帶寬、低功耗,這三項(xiàng)看似互斥的指標(biāo),正是存算一體技術(shù)大顯身手的主場(chǎng),后摩智能從 2020 年就開(kāi)始深耕這一領(lǐng)域。存算一體通過(guò)把計(jì)算和存儲(chǔ)單元集成在一起,讓數(shù)據(jù)就近處理,從根本上解決了傳統(tǒng)芯片“數(shù)據(jù)傳輸慢、功耗高”的問(wèn)題。M50 芯片作為這項(xiàng)技術(shù)的集大成之作,其第二代SRAM-CIM雙端口存算架構(gòu)能讓權(quán)重加載和矩陣計(jì)算同時(shí)進(jìn)行,支持多精度混合運(yùn)算,可兼顧模型部署的各項(xiàng)需求;后摩智能自主研發(fā)的第二代 IPU 架構(gòu)——天璇,通過(guò)壓縮自適應(yīng)計(jì)算周期實(shí)現(xiàn)彈性計(jì)算(Elastic Computing),最高可提供 160% 的加速效果;通過(guò)內(nèi)建的高速多芯互聯(lián)技術(shù),可實(shí)現(xiàn)算力與帶寬擴(kuò)展;同時(shí)適配后摩智能新一代編譯器后摩大道?,可根據(jù)芯片架構(gòu)自動(dòng)選擇最優(yōu)算子,無(wú)需開(kāi)發(fā)者手動(dòng)嘗試;支持浮點(diǎn)運(yùn)算,無(wú)需量化參數(shù)和精度調(diào)優(yōu)。和傳統(tǒng)架構(gòu)相比,M50 的能效提升 5~10 倍,完美適配了端邊設(shè)備"算得快又吃得少"的需求。
除了 M50 芯片,后摩智能此次發(fā)布的產(chǎn)品矩陣形成了覆蓋端側(cè)到邊緣的多元算力方案。力擎??LQ50 M.2 卡以口香糖大小的標(biāo)準(zhǔn) M.2 規(guī)格,為 AI PC、AI Stick、陪伴機(jī)器人等移動(dòng)終端提供 "即插即用" 的端側(cè) AI 能力,支持 7B/8B 模型推理超 25tokens/s;力擎??LQ50 Duo M.2 卡集成雙 M50 芯片,以 320TOPS 算力突破 14B/32B 大模型端側(cè)部署瓶頸;力謀?LM5050 加速卡與力謀?LM5070 加速卡分別集成 2 顆、4 顆 M50 芯片,為單機(jī)及超大模型推理提供高密度算力,最高達(dá) 640TOPS;BX50 計(jì)算盒子則以緊湊機(jī)身適配邊緣場(chǎng)景,支持 32 路視頻分析與本地大模型運(yùn)行。
這些產(chǎn)品可廣泛應(yīng)用于消費(fèi)終端、智能辦公、智能工業(yè)等多元領(lǐng)域,且均能在離線狀態(tài)下實(shí)現(xiàn)全流程本地處理,從源頭杜絕數(shù)據(jù)聯(lián)網(wǎng)傳輸風(fēng)險(xiǎn)。例如在消費(fèi)終端,賦能筆記本、平板電腦、學(xué)習(xí)機(jī)等設(shè)備本地大模型推理能力,無(wú)需聯(lián)網(wǎng)即可完成智能交互、內(nèi)容生成等任務(wù),用戶隱私數(shù)據(jù)全程閉環(huán)留存;智能辦公場(chǎng)景中,智能會(huì)議系統(tǒng)在斷網(wǎng)環(huán)境下仍能實(shí)現(xiàn)多語(yǔ)種翻譯、紀(jì)要生成,會(huì)議內(nèi)容不觸云、不泄露;智能工業(yè)領(lǐng)域,產(chǎn)線質(zhì)檢與車路云協(xié)同通過(guò)本地算力完成實(shí)時(shí)分析決策,生產(chǎn)數(shù)據(jù)與運(yùn)營(yíng)信息在設(shè)備端閉環(huán)處理,避免云端傳輸隱患。后摩智能通過(guò)存算一體技術(shù)與大模型的深度融合,推動(dòng) AI 大模型在端邊側(cè)實(shí)現(xiàn) “離線可用、數(shù)據(jù)留痕不外露”,構(gòu)建起 “低功耗、高安全、好體驗(yàn)” 的端邊智能新生態(tài)。
面向未來(lái),后摩智能已啟動(dòng)下一代 DRAM-PIM 技術(shù)研發(fā),通過(guò)將計(jì)算單元直接嵌入 DRAM 陣列,使計(jì)算與存儲(chǔ)的協(xié)同更加緊密高效。該技術(shù)將突破 1TB/s 片內(nèi)帶寬,能效較現(xiàn)有水平再提升三倍,推動(dòng)百億參數(shù)大模型在終端設(shè)備實(shí)現(xiàn)普及,讓更強(qiáng)大的 AI 算力能夠融入 PC、平板等日常設(shè)備。
這樣的技術(shù)方向和發(fā)展愿景也得到了重量級(jí)產(chǎn)業(yè)方和國(guó)有資本的認(rèn)可,近兩年以來(lái),后摩智能已經(jīng)獲得了中國(guó)移動(dòng)產(chǎn)業(yè)鏈發(fā)展基金、北京市人工智能基金,北京市亦莊產(chǎn)業(yè)升級(jí)基金、中國(guó)國(guó)有企業(yè)混改基金等多家機(jī)構(gòu)的投資,為在端邊大模型芯片領(lǐng)域的持續(xù)創(chuàng)新提供了有力支撐。后摩智能 CEO 吳強(qiáng)博士表示:“M50 的發(fā)布只是一個(gè)開(kāi)始,我們的目標(biāo)是讓大模型算力像電力一樣隨處可得、隨取隨用,真正走進(jìn)每一條產(chǎn)線、每一臺(tái)設(shè)備、每一個(gè)人的指尖。”