近日,深圳市邁特芯科技有限公司(邁特芯)及南方科技大學微電子學院研發(fā)團隊在具身智能硬件領域取得多項突破性成果:首先在芯片方向,團隊成功流片驗證了立方脈動架構,面向具身深度學習網(wǎng)絡,通過網(wǎng)絡搜索優(yōu)化,實現(xiàn)了最優(yōu)的能效比(29.12 TOPS/W)和面積比(7.94 TOPS/mm2)。同時在加速卡方向,團隊研發(fā)的具有立方脈動架構端側大模型推理卡,成功實現(xiàn)了大語言模型(LLM)在邊端部署,達到了近80%帶寬利用率(75tps)。在系統(tǒng)應用方向,團隊將LLM加速卡實體化到邊緣側的下一代測序儀,實現(xiàn)了實時現(xiàn)場進行智能基因診斷。
具身智能芯片
隨著大模型時代的到來,深度神經(jīng)網(wǎng)絡模型的算力需求呈指數(shù)級增長,但傳統(tǒng)芯片架構面臨能效與性能的雙重瓶頸。研究團隊針對這一挑戰(zhàn)突破傳統(tǒng)AI芯片設計中“能效-面積-靈活性”三角矛盾,實現(xiàn)了三大技術創(chuàng)新:
動態(tài)精度調控:打破固定精度限制,在能效與準確率間實現(xiàn)動態(tài)平衡;
結構化稀疏編碼:通過對數(shù)尺度稀疏策略,在壓縮率提升30%的同時保持模型精度;
矢量脈動陣列:創(chuàng)新的脈動架構將內存帶寬利用率提升至92%,顯著降低數(shù)據(jù)搬運能耗。
圖1 混合精度加速器芯片及混合稀疏加速器芯片圖
圖2 具有混合精度及稀疏的立方脈動架構芯片的性能比較
該成果發(fā)表在集成電路設計領域頂級期刊IEEE Journal of Solid-State Circuits
具身智能加速卡
研發(fā)團隊進一步攻克大語言模型(LLM)在資源受限邊緣設備上的部署,利用已驗證的混合精度計算單元以及立方脈動陣列架構,成功部署了多個7B LLM語言模型及多模態(tài)模型。與GPU相比,該系統(tǒng)的吞吐量提高了1.91倍,能效提高了7.55倍;與最先進的FPGA加速器FlightLLM相比,整體性能提升了10%到24%。
圖3 端側大模型推理卡
圖4 不同端側大模型推理卡對比
該成果發(fā)表在電路與系統(tǒng)領域頂級期刊 IEEE Transactions on Circuits and Systems I: Regular Papers。
具身智能系統(tǒng)應用落地
作為端側大模型推理卡應用,團隊和上海芯像生物科技有限公司合作研發(fā)了LLM具身化的NGS測序儀-emGene,優(yōu)化后的大語言模型得以在端側大模型推理卡上高效部署,使診斷流程大幅提速,從而實現(xiàn)實時、現(xiàn)場DNA分析,在醫(yī)療領域實現(xiàn)實時、現(xiàn)場基因智能診斷的實際應用。
圖5 emGene大語言模型(LLM)邊緣NGS測序儀
該成果發(fā)表在電路與系統(tǒng)領域頂級期刊IEEE Integrated Circuits and Systems。