4月16日,在芯原股份主辦的可穿戴技術(shù)研討會(huì)上,芯原股份解決方案架構(gòu)工程師劉律宏向行業(yè)展示了AR/VR設(shè)備面臨的嚴(yán)峻挑戰(zhàn):"隨著AR眼鏡功能復(fù)雜度指數(shù)級(jí)增長(zhǎng),系統(tǒng)能耗與設(shè)備重量正成為產(chǎn)業(yè)發(fā)展的'雙重枷鎖'。"根據(jù)其披露的行業(yè)調(diào)研數(shù)據(jù),當(dāng)前主流消費(fèi)級(jí)AR眼鏡重量普遍在30-80克區(qū)間,但配備的電池容量?jī)H450mAh左右,導(dǎo)致復(fù)雜場(chǎng)景下的續(xù)航時(shí)間不足6小時(shí)。
針對(duì)這一矛盾,劉律宏詳細(xì)闡述了芯原的三級(jí)技術(shù)架構(gòu):"我們的Pico/Nano系列專(zhuān)用IP核通過(guò)動(dòng)態(tài)精度調(diào)節(jié)技術(shù),在保持95%識(shí)別準(zhǔn)確率的前提下,將GPU渲染功耗降低至1.2mW/幀,NPU推理能效比達(dá)到5.3TOPS/W。"
以某客戶(hù)實(shí)際項(xiàng)目為例,采用芯原ISP+Dewarp組合方案后,圖像畸變校正環(huán)節(jié)的功耗從傳統(tǒng)方案的23mW降至9.8mW,面積縮減27%。這些數(shù)據(jù)印證了專(zhuān)用IP對(duì)能效提升的關(guān)鍵作用。
在系統(tǒng)架構(gòu)層面,劉律宏重點(diǎn)介紹了FLEXA互聯(lián)技術(shù):"通過(guò)點(diǎn)對(duì)點(diǎn)直連架構(gòu)替代傳統(tǒng)總線(xiàn)方案,數(shù)據(jù)搬運(yùn)能耗降低40%,同時(shí)將DDR訪(fǎng)問(wèn)頻率從800MHz壓縮至480MHz。"配合DECNano有損壓縮技術(shù),該方案在醫(yī)療AR場(chǎng)景測(cè)試中,將3D解剖模型傳輸帶寬從12Gbps壓縮至3.2Gbps,同時(shí)保持98.7%的視覺(jué)保真度。
劉律宏以某AR眼鏡芯片項(xiàng)目為例,展示了系統(tǒng)級(jí)優(yōu)化效果:"客戶(hù)原始設(shè)計(jì)存在50%的帶寬超標(biāo)和性能缺口,通過(guò)芯原方案重構(gòu)數(shù)據(jù)通路后,視頻處理流水線(xiàn)延遲從28ms縮短至8ms,外存帶寬占用下降56.32%。"這得益于三個(gè)關(guān)鍵改進(jìn):
采用可配置IP核實(shí)現(xiàn)面積-功耗協(xié)同優(yōu)化
基于場(chǎng)景特征的子系統(tǒng)重分配技術(shù)
FLEXA壓縮技術(shù)將DDR訪(fǎng)問(wèn)比例降至12%
在軟件層面,芯原開(kāi)發(fā)了精簡(jiǎn)版SDK。劉律宏指出:"我們的Lite版驅(qū)動(dòng)代碼體積縮減72%,在RTOS環(huán)境下僅占用38KB存儲(chǔ)空間,CPU負(fù)載率控制在15%以?xún)?nèi)。"這種深度優(yōu)化使得同個(gè)硬件平臺(tái)可同時(shí)支持Linux和安卓雙系統(tǒng),在智能手表項(xiàng)目中實(shí)現(xiàn)30%的續(xù)航提升。
芯原股份NPU IP研發(fā)副總裁查凱南則從AI架構(gòu)角度提出新思路:"Token化技術(shù)正在重塑邊緣計(jì)算范式,通過(guò)將多模態(tài)數(shù)據(jù)轉(zhuǎn)化為語(yǔ)義向量,我們實(shí)現(xiàn)了端-邊-云的高效協(xié)同。"這一理念在與谷歌的聯(lián)合研發(fā)中得到驗(yàn)證。
查凱南詳細(xì)解析了SigLIP模型的創(chuàng)新應(yīng)用:"該視覺(jué)Transformer模型可將1080P圖像壓縮為768維Token向量,數(shù)據(jù)量縮減至原始圖像的0.3%,同時(shí)保留92.4%的語(yǔ)義信息。"在智能家居場(chǎng)景測(cè)試中,這種標(biāo)記化處理使視頻分析延遲從230ms降至58ms。
技術(shù)實(shí)現(xiàn)的關(guān)鍵在于:
動(dòng)態(tài)量化技術(shù):將32位浮點(diǎn)特征壓縮至8位定點(diǎn)
注意力機(jī)制優(yōu)化:計(jì)算復(fù)雜度降低至傳統(tǒng)ViT的1/5
分層Token選擇:保留率從100%優(yōu)化至18%
針對(duì)邊緣設(shè)備算力限制,查凱南介紹了蒸餾技術(shù)的突破:"通過(guò)漸進(jìn)式知識(shí)蒸餾,將70億參數(shù)的Gemma模型壓縮至3億參數(shù),在RISC-V RVV加速器上實(shí)現(xiàn)7.2TOPS/W的能效比。"在AR眼鏡原型測(cè)試中,該方案支持實(shí)時(shí)多語(yǔ)言翻譯功能,功耗控制在380mW以?xún)?nèi)。
硬件架構(gòu)創(chuàng)新方面,查凱南透露:"我們與谷歌共同定義的RVV擴(kuò)展指令集,使Kelvin處理器實(shí)現(xiàn)256MACs/cycle的吞吐量,相比標(biāo)準(zhǔn)RISC-V核提升8倍矩陣運(yùn)算效率。"
在智能家居安防場(chǎng)景中,芯原方案展現(xiàn)出獨(dú)特優(yōu)勢(shì):"端側(cè)設(shè)備通過(guò)Gating Model過(guò)濾98.7%的無(wú)意義畫(huà)面,僅將0.3%的關(guān)鍵Token上傳云端,使系統(tǒng)級(jí)功耗降低64%。"這得益于三級(jí)處理架構(gòu):
傳感器端:運(yùn)行100mW級(jí)輕量模型完成初步篩選
邊緣網(wǎng)關(guān):部署5TOPS級(jí)模型進(jìn)行語(yǔ)義解析
云端:運(yùn)行千億參數(shù)模型完成復(fù)雜推理
劉律宏強(qiáng)調(diào)系統(tǒng)級(jí)優(yōu)化的必要性:"我們的VIP9000 NPU與DECNano壓縮引擎深度耦合,在視頻處理流水線(xiàn)中實(shí)現(xiàn)數(shù)據(jù)'零拷貝'傳輸,延遲降低至傳統(tǒng)方案的1/4。"這種軟硬協(xié)同在工業(yè)AR場(chǎng)景中,使設(shè)備巡檢系統(tǒng)的響應(yīng)時(shí)間從900ms優(yōu)化至210ms。
查凱南補(bǔ)充道:"在分布式AI框架中,我們開(kāi)發(fā)了統(tǒng)一的Token接口規(guī)范,使不同設(shè)備的特征向量誤差控制在±0.03以?xún)?nèi)。"這為跨設(shè)備協(xié)同奠定基礎(chǔ),在車(chē)聯(lián)網(wǎng)測(cè)試中實(shí)現(xiàn)多攝像頭目標(biāo)跟蹤的一致性提升。
在開(kāi)發(fā)者支持方面,劉律宏介紹:"我們提供從RTL到SDK的全套工具鏈,客戶(hù)可在72小時(shí)內(nèi)完成IP核配置驗(yàn)證。"查凱南則透露:"與谷歌合作的Model Zoo已收錄200+預(yù)量化模型,涵蓋從1TOPS到100TOPS的不同場(chǎng)景。"
查凱南總結(jié)道:"當(dāng)端側(cè)設(shè)備具備環(huán)境感知與初步認(rèn)知能力,云端專(zhuān)注深層推理時(shí),真正的空間計(jì)算時(shí)代就會(huì)到來(lái)。"這種技術(shù)演進(jìn)路徑,正推動(dòng)可穿戴設(shè)備從"智能終端"向"感知器官"的本質(zhì)蛻變。
而后,芯原股份片上系統(tǒng)高級(jí)設(shè)計(jì)總監(jiān)郝鵬鵬系統(tǒng)還闡述了芯原在AI眼鏡芯片設(shè)計(jì)領(lǐng)域的創(chuàng)新實(shí)踐:"當(dāng)端側(cè)AI能力從‘功能附加項(xiàng)’進(jìn)化為‘設(shè)備核心引擎’,芯片架構(gòu)必須重構(gòu)才能打破性能、續(xù)航與成本的‘不可能三角’。"
郝鵬鵬指出,AI眼鏡歷經(jīng)萌芽期、低潮期后,正邁入"AI Plus"爆發(fā)階段。通過(guò)分析市面主流方案痛點(diǎn),芯原創(chuàng)立三類(lèi)設(shè)計(jì)范式:"大而全"方案受制于300mW+功耗與復(fù)雜供應(yīng)鏈;"小而精"方案缺乏多模態(tài)處理能力;平衡型方案則面臨AI算力不足的瓶頸。對(duì)此,芯原提出"動(dòng)態(tài)性能密度"設(shè)計(jì)理念——通過(guò)22個(gè)獨(dú)立電源域劃分和RISC-V多核異構(gòu)架構(gòu),實(shí)現(xiàn)芯片功耗從5μW待機(jī)到3.8mW全功能運(yùn)行的30萬(wàn)倍動(dòng)態(tài)調(diào)節(jié)范圍。
在顯示處理環(huán)節(jié),芯原創(chuàng)新的AI超分辨率技術(shù)引發(fā)關(guān)注:通過(guò)將720P視頻流在顯示控制器端實(shí)時(shí)提升至1080P,使視頻處理流水線(xiàn)帶寬需求降低56%,配合FLEXA直連架構(gòu)實(shí)現(xiàn)DDR-less數(shù)據(jù)傳輸。實(shí)測(cè)數(shù)據(jù)顯示,該方案在動(dòng)態(tài)文字識(shí)別場(chǎng)景下,功耗較傳統(tǒng)方案降低63%,同時(shí)維持98.6%的視覺(jué)清晰度。
針對(duì)端側(cè)AI算力需求,郝鵬鵬重點(diǎn)解析了"三級(jí)加速引擎":AI-PIPE硬件加速器:集成New Break算法硬化模塊,使圖像語(yǔ)義提取功耗降至0.7mW/幀;可擴(kuò)展NPU陣列:支持1-4核動(dòng)態(tài)配置,在語(yǔ)音降噪場(chǎng)景實(shí)現(xiàn)0.5ms延遲的實(shí)時(shí)處理;ZSP定制DSP核:通過(guò)RISC-V RVV擴(kuò)展指令集,使Transformer模型推理能效比提升至12.3TOPS/W。
在落地實(shí)踐方面,郝鵬鵬分享了兩個(gè)典型案例,一個(gè)是家庭安防AI攝像頭:采用芯原定制SoC方案,僅憑2節(jié)AA電池實(shí)現(xiàn)24個(gè)月續(xù)航,其秘密在于深度優(yōu)化的電源管理系統(tǒng)——通過(guò)動(dòng)態(tài)電壓頻率調(diào)節(jié)(DVFS)技術(shù),使運(yùn)動(dòng)檢測(cè)模塊功耗低至8.3μW。另一個(gè)是全天候AI眼鏡原型機(jī):通過(guò)22個(gè)電源域精細(xì)管控,在保持30克重量的前提下,實(shí)現(xiàn)連續(xù)8小時(shí)多模態(tài)AI處理能力。其中視覺(jué)處理子系統(tǒng)采用"Token生成+超分辨率"組合方案,使3D導(dǎo)航場(chǎng)景下的數(shù)據(jù)傳輸量壓縮至原始數(shù)據(jù)的0.2%
郝鵬鵬最后強(qiáng)調(diào),芯原正通過(guò)三大技術(shù)路徑重構(gòu)行業(yè)基準(zhǔn):可配置計(jì)算平面:支持從1TOPS到16TOPS的彈性算力部署;混合精度數(shù)據(jù)流:實(shí)現(xiàn)FP16到INT4的動(dòng)態(tài)精度切換,使AI推理能效波動(dòng)范圍收窄至±5%;異構(gòu)通信架構(gòu):通過(guò)外掛藍(lán)牙/CAT-1協(xié)處理器模塊,使無(wú)線(xiàn)傳輸能耗降低42%
"當(dāng)眼鏡芯片的能效密度突破5TOPS/W臨界點(diǎn),設(shè)備將真正成為人體‘第六感官’。"郝鵬鵬表示,芯原已構(gòu)建從IP核到量產(chǎn)芯片的全棧能力,正在幫助客戶(hù)將AI眼鏡開(kāi)發(fā)周期從18個(gè)月壓縮至9個(gè)月。