隨著端側(cè)人工智能技術(shù)的爆發(fā)式增長,智能設(shè)備對本地算力與能效的需求日益提高。而傳統(tǒng)馮·諾依曼架構(gòu)在數(shù)據(jù)處理效率上存在瓶頸,“內(nèi)存墻”問題成為制約端側(cè)AI性能突破的關(guān)鍵掣肘。在這一背景下,存算一體芯片憑借低功耗、高帶寬,以及相對的通用性能,正在成為賦能智能終端、物聯(lián)網(wǎng)設(shè)備以及邊緣計算場景的核心動力。
科技創(chuàng)新企業(yè)蘋芯科技深耕存算一體技術(shù),推出N300存算一體NPU,在不改變傳統(tǒng)MCU形態(tài)的同時為傳統(tǒng)MCU芯片賦予AI能力,突破傳統(tǒng)MCU的算力瓶頸,為端側(cè)設(shè)備加載AI提供了革命性的解決方案。蘋芯科技在接受集微網(wǎng)采訪時表示,目前存算一體技術(shù)在國內(nèi)外企業(yè)的不懈努力下已經(jīng)實現(xiàn)商業(yè)化應(yīng)用,存算一體芯片也即將全面進(jìn)入千行百業(yè),為人工智能的大規(guī)模應(yīng)用提供不竭的算力支撐。
架構(gòu)創(chuàng)新,存算技術(shù)釋放數(shù)十倍能效比提升
存算一體并非最新提出的概念,發(fā)展歷程可以追溯到上個世紀(jì)。1969年,斯坦福研究所的Kautz等人首次提出了存算一體計算機的概念,旨在將計算單元與存儲單元融合,實現(xiàn)數(shù)據(jù)存儲與計算的同步進(jìn)行。此后,多倫多大學(xué)(1992年)和伯克利實驗室(1997年)都相繼嘗試以邏輯電路的形式拉近存儲與計算的距離。
2000年以后,隨著大數(shù)據(jù)以及人工智能技術(shù)的發(fā)展,人們對于并行計算的需求日益增長,存算一體技術(shù)受到更多關(guān)注。特別是Transformer架構(gòu)的流行,生成式模型已經(jīng)出現(xiàn)上千億,甚至更高參數(shù)量的需求,對存儲的要求也越來越高、帶寬越來越大。傳統(tǒng)馮·諾依曼架構(gòu)的數(shù)據(jù)搬運模式很難滿足AI芯片的計算效率,這就給存算技術(shù)帶來了新的商業(yè)化空間。
根據(jù)蘋芯介紹,傳統(tǒng)芯片是先把數(shù)據(jù)從存儲系統(tǒng)中讀取出來,放到計算單元當(dāng)中進(jìn)行運算,然后再把計算結(jié)果傳回到存儲系統(tǒng)當(dāng)中。這種大規(guī)模的數(shù)據(jù)遷移導(dǎo)致了帶寬的瓶頸和功耗的浪費。存算一體的核心創(chuàng)新在于“計算發(fā)生在數(shù)據(jù)存儲的位置”。它從根本上避免了上述情況的發(fā)生,同時帶來一系列的性能優(yōu)勢。以蘋芯科技開發(fā)的SRAM存算單元為例,它直接在存儲器內(nèi)部完成乘累加運算,徹底消除了數(shù)據(jù)搬運需求。測試數(shù)據(jù)顯示,這一技術(shù)可將數(shù)據(jù)遷移能耗降低90%以上,同時將能效比提升至27.38 TOPS/W,較傳統(tǒng)架構(gòu)提升數(shù)十倍(該成果已入選ISSCC 2022)。
目前,存算一體技術(shù)的商業(yè)化進(jìn)程已處于成熟落地應(yīng)用階段,大規(guī)模應(yīng)用即將全面鋪開。比如搭載了存算一體NPU的MCU芯片,已用于智能監(jiān)控攝像頭等設(shè)備中,實現(xiàn)人臉識別、行為分析、目標(biāo)檢測等視頻圖像的實時分析和處理;在智能手表、智能手環(huán)等設(shè)備中,進(jìn)行心率監(jiān)測、運動姿態(tài)識別等時實數(shù)據(jù)監(jiān)測和分析。
聚焦終端側(cè),規(guī)模商業(yè)化突破的現(xiàn)實選擇
通常,工業(yè)界在評價一個架構(gòu)的商業(yè)化前景時,除了關(guān)注技術(shù)層面的發(fā)展?jié)摿σ酝?,還要考慮通用性、快速迭代能力,以及成本等核心指標(biāo)。此外,相比馮·諾依曼架構(gòu)來說,存算一體架構(gòu)的專用性更強。由于從設(shè)計上是將計算單元與存儲單元融合在一起,在進(jìn)行技術(shù)迭代時也會面臨更多的挑戰(zhàn)。這些都是業(yè)界探索存算一體技術(shù)應(yīng)用落地時,需要考慮的要點。因此,蘋芯指出,相對于云端高度復(fù)雜的生態(tài)、技術(shù)挑戰(zhàn),率先從終端側(cè)尋求突破是更加現(xiàn)實的選擇。
首先,云端計算往往被定位成一個平臺,因而更加強調(diào)泛化能力,也就是計算的通用性。這對更傾向于專用計算的存算一體芯片來說,設(shè)計上更具挑戰(zhàn)性。但是在終端側(cè)和邊緣側(cè)的MCU芯片進(jìn)行的更多是一項或者幾項指定功能,比如人臉檢測、語音識別等。這就意味著,終端側(cè)的芯片并不需要那么強的平臺化能力,它的應(yīng)用是相對固定的,因而算法也相對固定,與之相匹配的計算和存儲的能力也就相對固定。這就讓存算一體芯片有了更多用武之地。
其次,很多終端側(cè)的應(yīng)用場景對芯片的能效比有著極高的要求,一方面要求產(chǎn)品具有輕量化、便攜化的趨勢,需要考慮無法插電源工作的情況;另一方面又有著從非AI轉(zhuǎn)向AI類產(chǎn)品的升級需求。這就需要有高能效比的技術(shù)來支撐,在這方面存算一體芯片更具優(yōu)勢。
此外,終端側(cè)的市場空間同樣足夠廣闊。機構(gòu)預(yù)測,2025年可穿戴類產(chǎn)品的市場規(guī)模將超過1000億元。今年CES大展上,AI眼鏡和AI玩具成為最火爆的兩類新品。預(yù)計2025年全年AI眼鏡出貨量可達(dá)幾百萬臺,WellsennXR預(yù)測到2029年全球AI眼鏡銷量或?qū)⑼黄?500萬副,滲透率將提升至3.48%,市場規(guī)模更是有望突破825億元。人工智能向端側(cè)市場的大規(guī)模滲透已經(jīng)開始。
正是基于這樣的判斷,蘋芯科技面向終端側(cè)模型,推出了基于SRAM的存算一體NPU——N300。這是一款可集成于SoC芯片當(dāng)中的IP核,可用于執(zhí)行神經(jīng)網(wǎng)絡(luò)的加速任務(wù)。NPU可以提升神經(jīng)網(wǎng)絡(luò)效率,涵蓋矩陣加速、非線性加速等功能。用戶基于NPU可以打造端側(cè)SoC、MCU等產(chǎn)品。蘋芯表示:“蘋芯科技的比較優(yōu)勢在于產(chǎn)品的快速迭代能力,強調(diào)以小成本的迭代方式,小步快跑、快速驗證,為實現(xiàn)存算一體技術(shù)的大規(guī)模商業(yè)化提供了必要條件。”
此外,N300 在架構(gòu)設(shè)計、性能指標(biāo)(如算力、功耗、帶寬等)方面還有許多創(chuàng)新之處,比如存算融合陣列:256KB SRAM中嵌入計算單元,面積效率達(dá)0.26TOPS/mm2;動態(tài)精度引擎:支持4-16bit混合精度,語音模型量化后精度損失<3‰;多核彈性擴展:單核0.5TOPS,十六核集群可達(dá)8TOPS,工業(yè)質(zhì)檢場景吞吐量提升273%。
這些技術(shù)指標(biāo)與性能集于一體,使N300具備了成為終端側(cè)優(yōu)秀AI解決方案的潛在實力。
生態(tài)與模式,N300在實際應(yīng)用中的優(yōu)勢所在
目前,有越來越多MCU廠商開始將AI功能深度嵌入到芯片設(shè)計之中,包括ST、瑞薩、恩智浦以及眾多國內(nèi)企業(yè)。它們大多采用集成NPU的方案,讓芯片得以在端側(cè)直接執(zhí)行圖像識別、語音識別、預(yù)測分析等AI任務(wù),減少對數(shù)據(jù)回傳云端的依賴。
為了滿足用戶的需求,蘋芯科技也在不斷調(diào)整自身的商業(yè)模式。首先,蘋芯科技不僅推出N300 存算一體IP核,還同時開發(fā)了一款SoC芯片——S300,在神經(jīng)網(wǎng)絡(luò)加速部分集成了基于28nm工藝的N300內(nèi)核,主打多模態(tài)和環(huán)境感知功能。這一方面使蘋芯科技具備了向系統(tǒng)廠商提供芯片級解決方案的能力,也意味著N300 作為一款I(lǐng)P核是已經(jīng)得到驗證的產(chǎn)品,芯片級用戶在采用它的時候,無需擔(dān)心產(chǎn)品的可靠性。
其次,在生態(tài)方面,N300 支持開源編譯器TFLM。AI加速芯片并不像存儲芯片那樣是一個標(biāo)準(zhǔn)化的產(chǎn)品,可能100家NPU公司,就有100種解決方案。不過目前很多MCU公司已經(jīng)支持開源框架。而N300支持TFLM,意味著與多數(shù)MCU公司采用了同一框架,這樣在軟件上就與MCU是統(tǒng)一的。芯片用戶可以直接使用N300方案進(jìn)行訓(xùn)練,實現(xiàn)一鍵部署。
第三,N300是一款多模態(tài)融合感知NPU,對于語音、圖像,以及其他傳感數(shù)據(jù)都能給予支持。也就是說,在終端側(cè)的有限應(yīng)用中,它是可以做到相對通用,與其他面向終端側(cè)專用解決方案相比,具有更強的泛化優(yōu)勢,確保了客戶的易用性。
再加上存算一體芯片天然具有的能效比優(yōu)勢、帶寬優(yōu)勢,N300完全具備成為一款面向終端側(cè)AI市場優(yōu)秀解決方案的產(chǎn)品素質(zhì)。事實上,N300已經(jīng)在市場小范圍推廣,并取得不少成功的商業(yè)化案例。
以TWS耳機降噪案例為例,近年來TWS耳機市場火熱,很多廠商采用AI方案實現(xiàn)本地化語音增強與環(huán)境降噪。N300可被集成在22nm工藝的芯片當(dāng)中,實現(xiàn)36 GOPS@64MHz的算力,支持DCCRN網(wǎng)絡(luò)(含LSTM)的實時推理。適配了微型化的終端設(shè)計;同時發(fā)揮極強的功耗控制效能,平均工作功耗<1mW,比傳統(tǒng)的DSP方案降低70%,延長耳機續(xù)航30%以上。
繼續(xù)深耕,蘋芯科技為邊緣未來布局
展望終端與邊緣側(cè)AI市場發(fā)展趨勢,“存算一體”技術(shù)完全有能力成為該領(lǐng)域的主流芯片架構(gòu)之一。蘋芯表示,未來的計算架構(gòu)大致有三條發(fā)展路徑:一是存算一體。其將計算單元與存儲單元融合,在實現(xiàn)數(shù)據(jù)存儲的同時直接進(jìn)行計算,以消除數(shù)據(jù)搬移帶來的開銷。二是3D堆疊。這種架構(gòu)出于對存儲帶寬的極致追求,因此是天然是反對存算一體的。第三條路徑則是在前兩種方案之間做平衡,也即近存計算。它希望在不改變計算單元,也不改變存儲單元的情況下,盡量縮短存儲與處理器中間的距離,以此改善芯片的性能。
在這三條路徑中,如果計算和存儲功能相對明確,那么存算一體方案就更具優(yōu)勢,可以更加充分發(fā)揮架構(gòu)帶來的優(yōu)勢。當(dāng)然,目前的存算一體要想實現(xiàn)大規(guī)模商用仍有很多技術(shù)瓶頸需要突破,包括工藝兼容性的改善,比如eNVM存儲器的穩(wěn)定量產(chǎn);提高設(shè)計工具鏈的成熟度,實現(xiàn)自動化EDA工具與跨平臺編譯器的支持,加強代工廠標(biāo)準(zhǔn)IP庫的建設(shè)與優(yōu)化多場景下的制造成本,以便提高產(chǎn)業(yè)鏈的整體協(xié)同能力。同時還需要構(gòu)建開源生態(tài),以解決開發(fā)門檻高、改善算法適配碎片化等問題。這樣才能將存算一體從技術(shù)優(yōu)勢轉(zhuǎn)化為規(guī)模化落地的能力。而蘋芯科技的優(yōu)勢在于能夠在較短時間內(nèi),只要客戶立項并確定其所采用的工藝,就可以進(jìn)行快速定制并實現(xiàn)交付。這可以成為用戶大規(guī)模商用中的一大助力。
從市場角度來看,未來3~5年,存算一體芯片將在AIoT和邊緣計算領(lǐng)域迎來爆發(fā)式增長,市場潛力集中于實時健康監(jiān)測(如可穿戴ECG實時分析)、工業(yè)預(yù)測性維護(振動/溫度信號邊緣診斷)及智慧家居(能效優(yōu)化、數(shù)據(jù)安全與保護)等場景,這就需要高能效比與低成本的產(chǎn)品,精準(zhǔn)匹配邊緣側(cè)對“高能效+低成本+實時處理”的核心需求。
蘋芯科技已經(jīng)推出支持圖像、語音等多模態(tài)融合處理的N300 ,未來將把這些核心能力,比如CNN/Transformer硬件加速、動態(tài)數(shù)據(jù)流調(diào)度引擎向更多模態(tài)擴展,推出新的解決方案?!按嫠阋惑w仍然處于快速發(fā)展階段,這個技術(shù)是不斷被喚醒的,不斷有新的熱點出現(xiàn)。我們已經(jīng)推出一顆芯片和一個IP,實現(xiàn)了多模態(tài)融合感知。下一步我們將開發(fā)一款LPU(語言處理單元)方向的產(chǎn)品,針對CNN/Transformer硬件加速,把傳送這件事情做到邊緣側(cè)去?!碧O芯透露。
為此,蘋芯科技未來將聚焦22/14nm工藝升級與新型eNVM(如MRAM/RRAM)存算架構(gòu)集成,通過混合精度計算優(yōu)化和稀疏化加速引擎提升算法效率,同時完善開源編譯器工具鏈(支持多模態(tài)模型一鍵部署)并拓展異構(gòu)計算IP庫。
蘋芯科技還計劃在未來的研發(fā)工作中,進(jìn)一步提高存算一體核心單元計算能效比,并聯(lián)合代工廠推進(jìn)eNVM工藝量產(chǎn),構(gòu)建覆蓋智能穿戴、智慧家居等場景的“存算+”生態(tài),突破設(shè)計自動化工具與跨平臺適配瓶頸,加速技術(shù)規(guī)?;涞?。