近日,南京大學(xué)萬昌錦團(tuán)隊(duì)研發(fā)了面向視頻動作處理的光電儲備池計(jì)算技術(shù),并基于此技術(shù)及氧化物功能器件開發(fā)了名為Alpho-RC的仿生動態(tài)視覺處理系統(tǒng)。該研究成果以“A Bioinspired In-Materia Analogue Photoelectronic Reservoir Computing for Human Action Processing”為題發(fā)表在國際頂級綜合性期刊Nature Communications上。審稿人評價(jià)該工作為:“clearly represents a new milestone”,該研究成果一經(jīng)發(fā)表即被該雜志編輯選為器件領(lǐng)域Featured Articles(僅50篇)。
圖1. 感受野啟發(fā)的仿生視覺處理流程
儲備池計(jì)算網(wǎng)絡(luò)是一種循環(huán)神經(jīng)網(wǎng)絡(luò),在處理時(shí)序信號時(shí)有計(jì)算代價(jià)小、效率高的優(yōu)勢。但在面對圖像識別任務(wù)時(shí),識別率不如經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)。因而,目前尚未有關(guān)于處理真實(shí)視頻信號的儲備池計(jì)算網(wǎng)絡(luò)的報(bào)道。為此,南大電子學(xué)院萬昌錦團(tuán)隊(duì)與合作單位受生物感受野啟發(fā)(如圖1),開發(fā)了一種面向視頻動作處理的光電儲備池計(jì)算系統(tǒng)(Alpho-RC),實(shí)現(xiàn)了對真實(shí)視頻信號的高能效處理。Alpho-RC系統(tǒng)(如圖2)主要由IGZO光電突觸晶體管(10 kb)芯片作為儲池層,提供高維的非線性映射;同時(shí),以1T1R結(jié)構(gòu)的TaOx基憶阻器(1 kb)芯片作為輸出層,進(jìn)行基于線性回歸運(yùn)算的標(biāo)簽推理,突破了原有儲備池計(jì)算系統(tǒng)難以實(shí)現(xiàn)高效視頻處理的限制,實(shí)現(xiàn)了對真實(shí)視頻信號的高能效處理。
圖2. 模擬態(tài)光電儲層計(jì)算系統(tǒng)關(guān)鍵模塊:IGZO晶體管芯片及TaOx基1T1R憶阻器芯片
該系統(tǒng)的一大亮點(diǎn)是其模仿生物神經(jīng)元的感受野機(jī)制。感受野是一種生物學(xué)概念,指的是特定神經(jīng)元對特定空間區(qū)域內(nèi)的刺激作出反應(yīng)的能力。在Alpho-RC中,研究人員使用了多個(gè)高斯感受野(GRF)神經(jīng)元組成的群體編碼器,將輸入信息編碼成尖峰序列。只有當(dāng)對應(yīng)感受野的輸出最大時(shí)才會觸發(fā)脈沖信號,這種方式極大地簡化了特征提取過程,減少了計(jì)算負(fù)擔(dān)。我們使用微軟的Kinect相機(jī)采集的3D 骨架數(shù)據(jù)作為視頻輸入,實(shí)現(xiàn)了無特征提取的動作識別與預(yù)測(如圖3)。在測試中,Alpho-RC系統(tǒng)針對UTD-MHAD(27類動作)、MSR Action3D(20類)、Florence 3D(9類)和MSR Action Pairs四個(gè)標(biāo)準(zhǔn)人類動作數(shù)據(jù)集,均取得了超過90%的識別準(zhǔn)確率。其中,在UTD-MHAD數(shù)據(jù)集上,識別率高達(dá)93.58%,多個(gè)動作識別效果良好。我們進(jìn)一步使用自制的包含正常和跌倒動作的數(shù)據(jù)集進(jìn)行驗(yàn)證,系統(tǒng)對跌倒行為識別準(zhǔn)確率達(dá)96.67% ,接近目前基于算法的最高識別率:98.33%。在動作預(yù)測方面,當(dāng)觀察比例超50%時(shí)預(yù)測準(zhǔn)確率超80%,而觀察比例超70%時(shí)超90%的識別率。對跌倒行為的高準(zhǔn)確率識別及高提前量的預(yù)測,在老年人退變疾病預(yù)防和健康監(jiān)護(hù)方面具有十分重大意義。
圖3. 在標(biāo)準(zhǔn)數(shù)據(jù)集和自制數(shù)據(jù)集上的驗(yàn)證結(jié)果
更重要的是,Alpho-RC系統(tǒng)還具備極高的能效優(yōu)勢。相比其他網(wǎng)絡(luò)模型,Alpho-RC網(wǎng)絡(luò)結(jié)構(gòu)十分簡單,其規(guī)模比經(jīng)典網(wǎng)絡(luò)小1-3個(gè)數(shù)量級。系統(tǒng)處理每個(gè)動作僅約45.78 μJ,比CMOS基處理器至少低2個(gè)數(shù)量級。這意味著Alpho-RC系統(tǒng)十分適合應(yīng)用于邊端設(shè)備和移動設(shè)備等資源受限的場景。可以預(yù)見的是,Alpho-RC系統(tǒng)將在未來在智能醫(yī)療領(lǐng)域、虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)領(lǐng)域,以及人機(jī)交互等領(lǐng)域具有廣闊的應(yīng)用前景。
南京大學(xué)電子學(xué)院萬昌錦副教授為該工作通訊作者,一年級博士生崔航源為該工作第一作者,學(xué)院施毅老師、甬江實(shí)驗(yàn)室萬青老師、浙大計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院林芃等老師提供了指導(dǎo)。研究得到了國家重大研究計(jì)劃、重點(diǎn)研發(fā)計(jì)劃、南京市生命健康專項(xiàng)等項(xiàng)目的資助,以及光電材料與芯片技術(shù)教育部工程中心的支持。