當(dāng)前,邊緣智能計算設(shè)備部署神經(jīng)網(wǎng)絡(luò)時,往往需要通過訓(xùn)練微調(diào)以提升網(wǎng)絡(luò)精度。但基于遠(yuǎn)程云端訓(xùn)練的方法存在高延遲、高功耗以及存在隱私泄露風(fēng)險等缺點(diǎn),因此,實現(xiàn)支持本地訓(xùn)練的存算一體技術(shù)至關(guān)重要。傳統(tǒng)的存算一體宏僅支持網(wǎng)絡(luò)推理,無法進(jìn)行網(wǎng)絡(luò)訓(xùn)練所需要的轉(zhuǎn)置運(yùn)算?,F(xiàn)有方案無法對訓(xùn)練中的前向與反向傳播過程中的乘累加電路進(jìn)行有效的復(fù)用,造成了功耗和面積上的浪費(fèi),且僅支持定點(diǎn)數(shù)制的模擬存算方案,在精度上也存在較大的缺陷。如何有效實現(xiàn)支持轉(zhuǎn)置操作的高能效、高精度的存算一體宏,是當(dāng)前存算一體領(lǐng)域亟須解決的問題。
針對以上問題,集成電路制造技術(shù)全國重點(diǎn)實驗室張鋒研究員團(tuán)隊設(shè)計出可轉(zhuǎn)置的近似精確雙模浮點(diǎn)存算一體宏芯片。通過提出的循環(huán)權(quán)重映射SRAM方案,芯片可在前向與反向傳播時復(fù)用乘加單元,在實現(xiàn)了轉(zhuǎn)置功能的同時,相對之前的轉(zhuǎn)置存算一體宏單元大大提升了能效與算力密度。通過提出的有符號定點(diǎn)尾數(shù)編碼方式與向量粒度預(yù)對齊方案,芯片實現(xiàn)了多種浮點(diǎn)、定點(diǎn)數(shù)制的兼容支持,相較于傳統(tǒng)的粗粒度浮點(diǎn)預(yù)對齊方案有著更小的精度損失。通過提出的近似精確雙模的乘加電路設(shè)計,芯片可在精度要求低的推理環(huán)節(jié)時開啟近似模式,從而獲得12%的速度提升與45%的能耗降低,可在精度要求高的訓(xùn)練環(huán)節(jié)時開啟精確模式確保沒有精度損失。該存算一體宏芯片在28nm CMOS工藝下流片,可支持BF16、FP8浮點(diǎn)精度運(yùn)算以及INT8、INT4定點(diǎn)精度運(yùn)算。BF16浮點(diǎn)矩陣-矩陣-向量計算均值能效達(dá)到48TFLOP/W,峰值能效達(dá)到100TFLOPS/W;FP8浮點(diǎn)矩陣-矩陣-向量計算均值能效達(dá)到192.3TFLOP/W,峰值能效達(dá)到400TFLOPS/W。這一研究結(jié)果為應(yīng)用于邊緣端訓(xùn)練的存算一體架構(gòu)芯片提供了新思路。
上述工作以“A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-mode Transpose Digital 6T-SRAM Compute-in-Memory Macro for Floating-Point Edge Training and Inference”為題入選 ISSCC 2025。微電子所博士生袁易揚(yáng)為第一作者,張鋒研究員與北京理工大學(xué)李瀟然助理教授為通訊作者。該研究成果得到了科技部重點(diǎn)研發(fā)計劃、國家自然科學(xué)基金、中國科學(xué)院戰(zhàn)略先導(dǎo)專項等項目的支持。
圖1. 28nm 基于外積的數(shù)?;旌细↑c(diǎn)存算一體宏芯片:(a)芯片顯微鏡照片,(b)芯片特性總結(jié)表。