人工智能(AI)正以驚人的速度發(fā)展,其所消耗的計(jì)算資源每3~4個(gè)月翻一番,計(jì)算芯片的性能提升速度已難以跟上算力需求的增長(zhǎng)速度。在此背景下,多種框架結(jié)構(gòu)的張量核心應(yīng)運(yùn)而生,其中光學(xué)神經(jīng)網(wǎng)絡(luò)芯片可以填補(bǔ)傳統(tǒng)微電子計(jì)算芯片在速度、延遲和能效等關(guān)鍵指標(biāo)上的短板,被認(rèn)為是提升AI算力的重要發(fā)展方向。
光學(xué)神經(jīng)網(wǎng)絡(luò)芯片主要用于執(zhí)行占據(jù)人工神經(jīng)網(wǎng)絡(luò)90%算力的張量運(yùn)算。光學(xué)神經(jīng)網(wǎng)絡(luò)芯片以光波作為載體進(jìn)行計(jì)算,傳輸過程就是計(jì)算過程,其在計(jì)算速度和能效方面有著無可比擬的優(yōu)勢(shì)。光學(xué)神經(jīng)網(wǎng)絡(luò)芯片在計(jì)算過程中不會(huì)產(chǎn)生焦耳熱,因此沒有散熱問題的困擾。光波的振幅、波長(zhǎng)、偏振態(tài)和相位都可以攜帶信息進(jìn)行計(jì)算,并且光路在交叉?zhèn)鬏敃r(shí)互不干擾,相比于電子,光子更擅長(zhǎng)于張量運(yùn)算。近年,雖然光學(xué)神經(jīng)網(wǎng)絡(luò)芯片領(lǐng)域不斷有新的技術(shù)被突破,但是由于光損耗、單元器件密度、波長(zhǎng)通道數(shù)等因素的限制,人們對(duì)光學(xué)神經(jīng)網(wǎng)絡(luò)芯片能否高效地處理大型數(shù)據(jù)、以及能否在模型訓(xùn)練方面具有優(yōu)勢(shì)一直持懷疑態(tài)度。
針對(duì)以上問題,中山大學(xué)研究團(tuán)隊(duì)與不列顛哥倫比亞大學(xué)、女王大學(xué)、拉瓦爾大學(xué)、加拿大國(guó)家研究院、清華大學(xué)團(tuán)隊(duì)攜手,基于鈮酸鋰薄膜光電集成技術(shù),創(chuàng)新性地把光的波動(dòng)性和電子的粒子性結(jié)合起來,在光學(xué)神經(jīng)網(wǎng)絡(luò)芯片領(lǐng)域取得了新的進(jìn)展。他們提出了一種新的簡(jiǎn)潔的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片框架結(jié)構(gòu)——實(shí)現(xiàn)了一整層的神經(jīng)網(wǎng)絡(luò),計(jì)算速度達(dá)到120 GOPS,同時(shí)輸入和輸出的數(shù)量能夠被靈活地調(diào)整以應(yīng)對(duì)多種人工智能任務(wù)。該光學(xué)神經(jīng)網(wǎng)絡(luò)芯片還支持快速原位訓(xùn)練,權(quán)重的刷新速度達(dá)到60 GHz。研究人員首次在光上實(shí)現(xiàn)了負(fù)數(shù)與負(fù)數(shù)的乘法,為聚類AI任務(wù)的訓(xùn)練提供了新的方案。另外,基于上述光學(xué)神經(jīng)網(wǎng)絡(luò)芯片,該工作還提出了首個(gè)端到端、納秒級(jí)延遲、無需數(shù)字處理器輔助的超大型光學(xué)神經(jīng)網(wǎng)絡(luò)架構(gòu)(見圖1)。
相關(guān)結(jié)果以“120 GOPS Photonic tensor core in thin-film lithium niobate for inference and in situ training”為題在Nature Communications上發(fā)表。論文的第一作者為中山大學(xué)林忠勁副教授,通訊作者為中山大學(xué)蔡鑫倫教授和不列顛哥倫比亞大學(xué)Lukas Chrostowski教授。
圖1 超大型光學(xué)神經(jīng)網(wǎng)絡(luò)架構(gòu)概念圖
工作原理與概念
如圖2所示,與其他光學(xué)神經(jīng)網(wǎng)絡(luò)芯片復(fù)雜的結(jié)構(gòu)不同,該工作提出的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片只由1個(gè)激光器、2個(gè)鈮酸鋰薄膜電光調(diào)制器、1個(gè)平衡光探測(cè)器和1個(gè)光生載流子積分器構(gòu)成。雖然結(jié)構(gòu)如此簡(jiǎn)單,但卻可以單獨(dú)執(zhí)行人工神經(jīng)網(wǎng)絡(luò)中的層與層之間的全連接計(jì)算。兩個(gè)鈮酸鋰薄膜電光調(diào)制器分別負(fù)責(zé)把輸入和權(quán)重轉(zhuǎn)換為光信號(hào),光依次穿過兩個(gè)調(diào)制器后,輸入和權(quán)重就完成了乘法操作并映射在光強(qiáng)上,然后利用積分器對(duì)不同時(shí)間的光強(qiáng)進(jìn)行積分,就完成了加權(quán)總和操作。通過改變積分時(shí)間,可以隨意改變輸入的維度,因此所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片可以執(zhí)行超大維度輸入的加權(quán)總和操作(見圖2c)。
圖2 所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片工作原理與概念
a 所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的結(jié)構(gòu)示意圖;b 基于波分復(fù)用的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的結(jié)構(gòu)示意圖;c 不同類型光學(xué)神經(jīng)網(wǎng)絡(luò)芯片在工作原理、尺寸、計(jì)算速度和加權(quán)總和的輸入維度方面的性能對(duì)比;TDM:時(shí)分復(fù)用。
光學(xué)神經(jīng)網(wǎng)絡(luò)芯片全集成
該工作突破了鈮酸鋰薄膜光芯片的光子引線鍵合封裝工藝,實(shí)現(xiàn)了鈮酸鋰薄膜光芯片和激光器的混合集成(見圖3)。激光器和鈮酸鋰薄膜光芯片之間通過聚合物三維光波導(dǎo)連接。由于光探測(cè)器不能直接在鈮酸鋰薄膜材料平臺(tái)上制備,因此通過倒裝焊的方式實(shí)現(xiàn)鈮酸鋰薄膜光芯片和光探測(cè)器之間的連接。
圖3 所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片全集成
a 光學(xué)神經(jīng)網(wǎng)絡(luò)芯片整體照片;b-d 分別為光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的光探測(cè)器、調(diào)制區(qū)域、激光器部位的顯微鏡圖;e 光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的側(cè)視圖以供理解光探測(cè)器、激光器和鈮酸鋰薄膜光芯片之間位置關(guān)系。
識(shí)別AI任務(wù)執(zhí)行
為了評(píng)估所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片在執(zhí)行監(jiān)督型機(jī)器學(xué)習(xí)任務(wù)方面的性能,如圖4a所示,該工作用光學(xué)神經(jīng)網(wǎng)絡(luò)芯片構(gòu)建了多層感知神經(jīng)網(wǎng)絡(luò),并對(duì)112×112像素的數(shù)字圖像進(jìn)行識(shí)別。圖4b展示的是基于所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行原位模型訓(xùn)練的工作流程:輸入和權(quán)重從中心處理器傳送到光學(xué)神經(jīng)網(wǎng)絡(luò)芯片,光學(xué)神經(jīng)網(wǎng)絡(luò)芯片完成加權(quán)總和運(yùn)算并把結(jié)果傳回中心處理器。圖4c表明所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的精度足以完成原位模型訓(xùn)練任務(wù)。另外,在圖像識(shí)別方面,光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的性能可以媲美全中心處理器(見圖4d和4e)。
圖4 利用所提光學(xué)神經(jīng)網(wǎng)絡(luò)芯片執(zhí)行圖像識(shí)別任務(wù)
a 多層感知神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;b 原位模型訓(xùn)練的工作流程‘c 光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行訓(xùn)練的迭代曲線’d 和 e 分別為全中心處理器和所提光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行圖像識(shí)別的結(jié)果。
聚類AI任務(wù)執(zhí)行
與圖像識(shí)別任務(wù)不同,圖像聚類任務(wù)是無監(jiān)督機(jī)器學(xué)習(xí)任務(wù),其訓(xùn)練的過程涉及到負(fù)數(shù)與負(fù)數(shù)之間的乘法運(yùn)算,然而在之前的光計(jì)算方案中,這一操作無法完成。針對(duì)這一問題,該工作提出了首個(gè)能夠執(zhí)行負(fù)數(shù)與負(fù)數(shù)相乘的方案(見圖5a)。圖5b表明所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片可以實(shí)現(xiàn)與全中心處理器的結(jié)果。圖5c和5d展示的是利用所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片實(shí)現(xiàn)的圖像聚類結(jié)果。對(duì)于這個(gè)任務(wù),光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的處理速度是正常的中心處理器(Intel i9-9900 @ 3.10 GHz)的5倍。
圖5 利用所提光學(xué)神經(jīng)網(wǎng)絡(luò)芯片執(zhí)行圖像聚類任務(wù)
a 負(fù)數(shù)與負(fù)數(shù)乘法運(yùn)算的原理;b 光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行訓(xùn)練的迭代曲線;c 和 d為所提光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行圖像聚類任務(wù)的結(jié)果。
超大型光學(xué)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在上述光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的工作基礎(chǔ)上,綜合分析時(shí)分復(fù)用和波分復(fù)用的光學(xué)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),該工作提出了新的超大型光學(xué)神經(jīng)網(wǎng)絡(luò)(見圖6)。在理論上,該光學(xué)神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)500 TOPS的計(jì)算速度,并且能夠在納秒級(jí)別完成高維度數(shù)據(jù)的處理。
圖6 超大型光學(xué)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
總結(jié)與展望
利用該光學(xué)神經(jīng)網(wǎng)絡(luò)芯片,研究人員實(shí)現(xiàn)了AI系統(tǒng)性能的提升,以原位模型訓(xùn)練的方式,實(shí)現(xiàn)了112×112像素的數(shù)字圖像識(shí)別(監(jiān)督學(xué)習(xí))和聚類(無監(jiān)督學(xué)習(xí))AI任務(wù)。該研究工作不僅推動(dòng)了光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的發(fā)展,還為未來構(gòu)建超大型光學(xué)神經(jīng)網(wǎng)絡(luò)奠定了基礎(chǔ)。