中山大學(xué)新型光學(xué)神經(jīng)網(wǎng)絡(luò)芯片，使快速訓(xùn)練成為可能

作者：集小微 2024-11-14

來源：中山大學(xué)電子與信息工程學(xué)院 #光學(xué)芯片# #AI算力# #中山大學(xué)#

1.4w

人工智能（AI）正以驚人的速度發(fā)展，其所消耗的計(jì)算資源每3～4個(gè)月翻一番，計(jì)算芯片的性能提升速度已難以跟上算力需求的增長(zhǎng)速度。在此背景下，多種框架結(jié)構(gòu)的張量核心應(yīng)運(yùn)而生，其中光學(xué)神經(jīng)網(wǎng)絡(luò)芯片可以填補(bǔ)傳統(tǒng)微電子計(jì)算芯片在速度、延遲和能效等關(guān)鍵指標(biāo)上的短板，被認(rèn)為是提升AI算力的重要發(fā)展方向。

光學(xué)神經(jīng)網(wǎng)絡(luò)芯片主要用于執(zhí)行占據(jù)人工神經(jīng)網(wǎng)絡(luò)90%算力的張量運(yùn)算。光學(xué)神經(jīng)網(wǎng)絡(luò)芯片以光波作為載體進(jìn)行計(jì)算，傳輸過程就是計(jì)算過程，其在計(jì)算速度和能效方面有著無可比擬的優(yōu)勢(shì)。光學(xué)神經(jīng)網(wǎng)絡(luò)芯片在計(jì)算過程中不會(huì)產(chǎn)生焦耳熱，因此沒有散熱問題的困擾。光波的振幅、波長(zhǎng)、偏振態(tài)和相位都可以攜帶信息進(jìn)行計(jì)算，并且光路在交叉?zhèn)鬏敃r(shí)互不干擾，相比于電子，光子更擅長(zhǎng)于張量運(yùn)算。近年，雖然光學(xué)神經(jīng)網(wǎng)絡(luò)芯片領(lǐng)域不斷有新的技術(shù)被突破，但是由于光損耗、單元器件密度、波長(zhǎng)通道數(shù)等因素的限制，人們對(duì)光學(xué)神經(jīng)網(wǎng)絡(luò)芯片能否高效地處理大型數(shù)據(jù)、以及能否在模型訓(xùn)練方面具有優(yōu)勢(shì)一直持懷疑態(tài)度。

針對(duì)以上問題，中山大學(xué)研究團(tuán)隊(duì)與不列顛哥倫比亞大學(xué)、女王大學(xué)、拉瓦爾大學(xué)、加拿大國(guó)家研究院、清華大學(xué)團(tuán)隊(duì)攜手，基于鈮酸鋰薄膜光電集成技術(shù)，創(chuàng)新性地把光的波動(dòng)性和電子的粒子性結(jié)合起來，在光學(xué)神經(jīng)網(wǎng)絡(luò)芯片領(lǐng)域取得了新的進(jìn)展。他們提出了一種新的簡(jiǎn)潔的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片框架結(jié)構(gòu)——實(shí)現(xiàn)了一整層的神經(jīng)網(wǎng)絡(luò)，計(jì)算速度達(dá)到120 GOPS，同時(shí)輸入和輸出的數(shù)量能夠被靈活地調(diào)整以應(yīng)對(duì)多種人工智能任務(wù)。該光學(xué)神經(jīng)網(wǎng)絡(luò)芯片還支持快速原位訓(xùn)練，權(quán)重的刷新速度達(dá)到60 GHz。研究人員首次在光上實(shí)現(xiàn)了負(fù)數(shù)與負(fù)數(shù)的乘法，為聚類AI任務(wù)的訓(xùn)練提供了新的方案。另外，基于上述光學(xué)神經(jīng)網(wǎng)絡(luò)芯片，該工作還提出了首個(gè)端到端、納秒級(jí)延遲、無需數(shù)字處理器輔助的超大型光學(xué)神經(jīng)網(wǎng)絡(luò)架構(gòu)（見圖1）。

相關(guān)結(jié)果以“120 GOPS Photonic tensor core in thin-film lithium niobate for inference and in situ training”為題在Nature Communications上發(fā)表。論文的第一作者為中山大學(xué)林忠勁副教授，通訊作者為中山大學(xué)蔡鑫倫教授和不列顛哥倫比亞大學(xué)Lukas Chrostowski教授。

圖1 超大型光學(xué)神經(jīng)網(wǎng)絡(luò)架構(gòu)概念圖

工作原理與概念

如圖2所示，與其他光學(xué)神經(jīng)網(wǎng)絡(luò)芯片復(fù)雜的結(jié)構(gòu)不同，該工作提出的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片只由1個(gè)激光器、2個(gè)鈮酸鋰薄膜電光調(diào)制器、1個(gè)平衡光探測(cè)器和1個(gè)光生載流子積分器構(gòu)成。雖然結(jié)構(gòu)如此簡(jiǎn)單，但卻可以單獨(dú)執(zhí)行人工神經(jīng)網(wǎng)絡(luò)中的層與層之間的全連接計(jì)算。兩個(gè)鈮酸鋰薄膜電光調(diào)制器分別負(fù)責(zé)把輸入和權(quán)重轉(zhuǎn)換為光信號(hào)，光依次穿過兩個(gè)調(diào)制器后，輸入和權(quán)重就完成了乘法操作并映射在光強(qiáng)上，然后利用積分器對(duì)不同時(shí)間的光強(qiáng)進(jìn)行積分，就完成了加權(quán)總和操作。通過改變積分時(shí)間，可以隨意改變輸入的維度，因此所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片可以執(zhí)行超大維度輸入的加權(quán)總和操作（見圖2c）。

圖2 所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片工作原理與概念

a 所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的結(jié)構(gòu)示意圖；b 基于波分復(fù)用的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的結(jié)構(gòu)示意圖；c 不同類型光學(xué)神經(jīng)網(wǎng)絡(luò)芯片在工作原理、尺寸、計(jì)算速度和加權(quán)總和的輸入維度方面的性能對(duì)比；TDM:時(shí)分復(fù)用。

光學(xué)神經(jīng)網(wǎng)絡(luò)芯片全集成

該工作突破了鈮酸鋰薄膜光芯片的光子引線鍵合封裝工藝，實(shí)現(xiàn)了鈮酸鋰薄膜光芯片和激光器的混合集成（見圖3）。激光器和鈮酸鋰薄膜光芯片之間通過聚合物三維光波導(dǎo)連接。由于光探測(cè)器不能直接在鈮酸鋰薄膜材料平臺(tái)上制備，因此通過倒裝焊的方式實(shí)現(xiàn)鈮酸鋰薄膜光芯片和光探測(cè)器之間的連接。

圖3 所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片全集成

a 光學(xué)神經(jīng)網(wǎng)絡(luò)芯片整體照片；b-d 分別為光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的光探測(cè)器、調(diào)制區(qū)域、激光器部位的顯微鏡圖；e 光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的側(cè)視圖以供理解光探測(cè)器、激光器和鈮酸鋰薄膜光芯片之間位置關(guān)系。

識(shí)別AI任務(wù)執(zhí)行

為了評(píng)估所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片在執(zhí)行監(jiān)督型機(jī)器學(xué)習(xí)任務(wù)方面的性能，如圖4a所示，該工作用光學(xué)神經(jīng)網(wǎng)絡(luò)芯片構(gòu)建了多層感知神經(jīng)網(wǎng)絡(luò)，并對(duì)112×112像素的數(shù)字圖像進(jìn)行識(shí)別。圖4b展示的是基于所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行原位模型訓(xùn)練的工作流程：輸入和權(quán)重從中心處理器傳送到光學(xué)神經(jīng)網(wǎng)絡(luò)芯片，光學(xué)神經(jīng)網(wǎng)絡(luò)芯片完成加權(quán)總和運(yùn)算并把結(jié)果傳回中心處理器。圖4c表明所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的精度足以完成原位模型訓(xùn)練任務(wù)。另外，在圖像識(shí)別方面，光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的性能可以媲美全中心處理器（見圖4d和4e）。

圖4 利用所提光學(xué)神經(jīng)網(wǎng)絡(luò)芯片執(zhí)行圖像識(shí)別任務(wù)

a 多層感知神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖；b 原位模型訓(xùn)練的工作流程‘c 光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行訓(xùn)練的迭代曲線’d 和 e 分別為全中心處理器和所提光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行圖像識(shí)別的結(jié)果。

聚類AI任務(wù)執(zhí)行

與圖像識(shí)別任務(wù)不同，圖像聚類任務(wù)是無監(jiān)督機(jī)器學(xué)習(xí)任務(wù)，其訓(xùn)練的過程涉及到負(fù)數(shù)與負(fù)數(shù)之間的乘法運(yùn)算，然而在之前的光計(jì)算方案中，這一操作無法完成。針對(duì)這一問題，該工作提出了首個(gè)能夠執(zhí)行負(fù)數(shù)與負(fù)數(shù)相乘的方案（見圖5a）。圖5b表明所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片可以實(shí)現(xiàn)與全中心處理器的結(jié)果。圖5c和5d展示的是利用所提的光學(xué)神經(jīng)網(wǎng)絡(luò)芯片實(shí)現(xiàn)的圖像聚類結(jié)果。對(duì)于這個(gè)任務(wù)，光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的處理速度是正常的中心處理器（Intel i9-9900 @ 3.10 GHz）的5倍。

圖5 利用所提光學(xué)神經(jīng)網(wǎng)絡(luò)芯片執(zhí)行圖像聚類任務(wù)

a 負(fù)數(shù)與負(fù)數(shù)乘法運(yùn)算的原理；b 光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行訓(xùn)練的迭代曲線；c 和 d為所提光學(xué)神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行圖像聚類任務(wù)的結(jié)果。

超大型光學(xué)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

在上述光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的工作基礎(chǔ)上，綜合分析時(shí)分復(fù)用和波分復(fù)用的光學(xué)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)，該工作提出了新的超大型光學(xué)神經(jīng)網(wǎng)絡(luò)（見圖6）。在理論上，該光學(xué)神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)500 TOPS的計(jì)算速度，并且能夠在納秒級(jí)別完成高維度數(shù)據(jù)的處理。

圖6 超大型光學(xué)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

總結(jié)與展望

利用該光學(xué)神經(jīng)網(wǎng)絡(luò)芯片，研究人員實(shí)現(xiàn)了AI系統(tǒng)性能的提升，以原位模型訓(xùn)練的方式，實(shí)現(xiàn)了112×112像素的數(shù)字圖像識(shí)別（監(jiān)督學(xué)習(xí)）和聚類（無監(jiān)督學(xué)習(xí)）AI任務(wù)。該研究工作不僅推動(dòng)了光學(xué)神經(jīng)網(wǎng)絡(luò)芯片的發(fā)展，還為未來構(gòu)建超大型光學(xué)神經(jīng)網(wǎng)絡(luò)奠定了基礎(chǔ)。