亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

北京大學(xué)集成電路學(xué)院/集成電路高精尖創(chuàng)新中心16篇論文在ICCAD 2024大會(huì)發(fā)表

來源:北京大學(xué) #北大集成電路# #人工智能# #北京大學(xué)# #北大集成#
1.7w

近日,以北京大學(xué)集成電路學(xué)院為第一完成單位的16篇論文在美國新澤西舉行的第43屆國際計(jì)算機(jī)輔助設(shè)計(jì)會(huì)議(ICCAD 2024)上發(fā)表,北京大學(xué)集成電路學(xué)院也成為國際上在ICCAD 2024以第一單位錄取論文最多的單位。

這16篇論文內(nèi)容涉及新型EDA算法、人工智能調(diào)度、映射和加速器設(shè)計(jì)方法、人工智能隱私計(jì)算等多個(gè)學(xué)術(shù)前沿領(lǐng)域。同時(shí),梁云、林亦波、李萌等多位學(xué)院老師為會(huì)議TPC成員,李萌、林亦波老師為會(huì)議分論壇主席。

林亦波老師指導(dǎo)的博士生麥景、郭資政參加ICCADCADathlon編程競賽獲得第一名,本科生杜宇凡和博士生郭資政參加ICCADCADContest獲得賽題三“ML/GPU加速邏輯門尺寸優(yōu)化”賽道第一名。此外,杜宇凡和郭資政的論文《Fusion of GlobalPlacement and Gate Sizing with Differentiable Optimization》獲得最佳論文提名。

部分參會(huì)師生合影

博士生郭資政、麥景獲得ICCADCADathlon編程競賽第一名

本科生杜宇凡、博士生郭資政獲得ICCADCADContest賽題三“ML/GPU加速邏輯門尺寸優(yōu)化”賽道第一名

新型EDA算法方向發(fā)表論文(共8篇)總結(jié)如下:

01.融合邏輯門布局和尺寸調(diào)整的可微優(yōu)化技術(shù)

隨著半導(dǎo)體技術(shù)微縮,優(yōu)化電路的性能、功耗和面積指標(biāo)(PPA)愈發(fā)具有挑戰(zhàn)性。三者間的平衡問題也不容忽視。傳統(tǒng)的設(shè)計(jì)流程將布局與邏輯門尺寸調(diào)整分為獨(dú)立的階段。這種分立的流程通常會(huì)導(dǎo)致設(shè)計(jì)優(yōu)化空間的局限性。針對這一問題,林亦波研究員-王潤聲教授研究團(tuán)隊(duì)提出了一種新型融合優(yōu)化技術(shù),將布局與邏輯門尺寸調(diào)整統(tǒng)一到一個(gè)可微優(yōu)化框架中,并實(shí)現(xiàn)了GPU異構(gòu)加速的PPA目標(biāo)優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該模型在時(shí)序指標(biāo)TNS和WNS上分別實(shí)現(xiàn)了77.1%和43.5%的提升,同時(shí)靜態(tài)功耗降低了1%。此外,該方法較傳統(tǒng)基于CPU的設(shè)計(jì)流程提速最高達(dá)7倍,可以更高效地支持復(fù)雜電路設(shè)計(jì)與優(yōu)化的需求。該工作以《Fusion of GlobalPlacement and Gate Sizing with Differentiable Optimization》為題發(fā)表,獲得了本屆ICCAD最佳論文提名(本科生杜宇凡和博士生郭資政為共同第一作者,林亦波研究員為通訊作者)。

02.HeteroExcept: 支持時(shí)序例外分析的CPU-GPU異構(gòu)靜態(tài)時(shí)序分析算法

大規(guī)模集成電路的靜態(tài)時(shí)序分析需要大量處理虛假路徑(FalsePath)、多周期路徑(Multi-CyclePath)和其他類型的時(shí)序例外規(guī)則,使得靜態(tài)時(shí)序分析效率大幅降低。盡管時(shí)序傳播是線性時(shí)間復(fù)雜度的算法,然而一般時(shí)序例外規(guī)則導(dǎo)致靜態(tài)時(shí)序分析成為NP難問題,只能通過標(biāo)簽圖傳播的啟發(fā)式算法進(jìn)行計(jì)算。傳統(tǒng)基于CPU的標(biāo)簽圖傳播算法由于并行度限制,效率低下。為了克服運(yùn)行時(shí)間的挑戰(zhàn),林亦波研究員-王潤聲教授研究團(tuán)隊(duì)提出了一種通用的CPU-GPU異構(gòu)時(shí)序分析算法HeteroExcept,可以處理常見類型的路徑例外規(guī)則,高效生成準(zhǔn)確的路徑報(bào)告。該算法能夠處理高達(dá)數(shù)千條時(shí)序例外規(guī)則和數(shù)百萬規(guī)模元件的電路。HeteroExcept在CPU和GPU之間引入了高效的投機(jī)數(shù)據(jù)交換策略,提出了包括時(shí)序例外影響范圍確認(rèn)、標(biāo)簽結(jié)構(gòu)寫時(shí)復(fù)制等技術(shù),在標(biāo)簽圖傳播過程中實(shí)現(xiàn)了有效的剪枝。與工業(yè)級時(shí)序分析工具PrimeTime和OpenSTA相比,HeteroExcept將效率分別提高了6.8倍和12.9倍。該工作以《HeteroExcept: A CPU-GPU Heterogeneous Algorithm to Accelerate Exception-aware Static Timing Analysis》為題發(fā)表(博士生郭資政為第一作者,林亦波研究員為通訊作者)。

03.FaStTherm: 考慮非線性效應(yīng)的穩(wěn)定芯片瞬態(tài)熱預(yù)測技術(shù)

隨著芯片集成密度的不斷提高,熱問題變得愈發(fā)嚴(yán)峻,包括非線性靜態(tài)功耗以及非線性熱導(dǎo)率在內(nèi)的片上非線性熱效應(yīng)也變得愈發(fā)顯著。高效準(zhǔn)確的瞬態(tài)熱仿真是解決芯片熱問題的基礎(chǔ)之一。由于傳統(tǒng)的數(shù)值方法時(shí)間資源開銷過大,研究人員提出了多種基于深度學(xué)習(xí)的快速瞬態(tài)熱預(yù)測模型。然而,這些模型普遍面臨著誤差累積的問題,在時(shí)間步長較多時(shí),缺乏穩(wěn)定性,難以應(yīng)對真實(shí)場景下的工作負(fù)載,尤其是在考慮片上非線性熱效應(yīng)的情況下。針對這一問題,林亦波研究員-王潤聲教授研究團(tuán)隊(duì)提出了FaStTherm,一種穩(wěn)定的快速芯片瞬態(tài)熱預(yù)測模型。FaStTherm采用自編碼器架構(gòu)在隱空間進(jìn)行模型降階,從而實(shí)現(xiàn)了快速瞬態(tài)熱預(yù)測。在此基礎(chǔ)上,F(xiàn)aStTherm提出了一種基于譜歸一化的全局穩(wěn)定策略,和基于多步展開訓(xùn)練以及噪聲注入的局部穩(wěn)定策略,顯著減少了誤差累積效應(yīng),提高了長期穩(wěn)定性。和商業(yè)仿真工具COMSOL相比,F(xiàn)aStTherm實(shí)現(xiàn)了10000倍的預(yù)測效率提升。與此同時(shí),相比于現(xiàn)有瞬態(tài)熱預(yù)測模型,有效預(yù)測步數(shù)增加了42到73倍。該工作以《FaStTherm: Fast and Stable Full-Chip Transient Thermal Predictor Considering Nonlinear Effects》為題發(fā)表(博士生朱天翔為第一作者,林亦波研究員為通訊作者)。

04.HeLEM-GR: GPU異構(gòu)加速全局布線技術(shù)

全局布線是芯片物理設(shè)計(jì)中關(guān)鍵的一步,在物理設(shè)計(jì)各個(gè)階段應(yīng)用廣泛。隨著芯片規(guī)模不斷增大,設(shè)計(jì)結(jié)構(gòu)越來越復(fù)雜,導(dǎo)致目前基于CPU的全局布線算法求解效果差,運(yùn)行時(shí)間長,嚴(yán)重影響了物理設(shè)計(jì)的質(zhì)量和效率。林亦波研究團(tuán)隊(duì)提出了GPU異構(gòu)加速全局布線工具HeLEM-GR。通過設(shè)計(jì)適用于GPU異構(gòu)計(jì)算加速的求解框架和布線核心新算法,顯著地提高了求解質(zhì)量和運(yùn)行效率。相比于國際物理設(shè)計(jì)競賽ISPD 2024 Contest前三名隊(duì)伍,HeLEM-GR在求解質(zhì)量上提高了4.8%-5.8%,運(yùn)行效率上提高了1.62-2.07倍。在超過5千萬個(gè)線網(wǎng)的布線案例上,性能和效率表現(xiàn)尤其突出。研究成果以《HeLEM-GR: Heterogeneous Global Routing with LinearizedExponential Multiplier Method》為題發(fā)表(博士生趙春源為第一作者,林亦波研究員為通訊作者)。

05.MORPH:考慮混合區(qū)域約束的魯棒芯片布局算法

現(xiàn)代芯片布局工具通常涉及三種類型的區(qū)域約束:默認(rèn)區(qū)域約束、柵欄區(qū)域約束和引導(dǎo)區(qū)域約束。這些區(qū)域約束對布局算法構(gòu)成了重大挑戰(zhàn),并成為近年來備受關(guān)注的問題。目前, 大多研究僅關(guān)注單一的柵欄區(qū)域約束,未關(guān)注實(shí)際設(shè)計(jì)中更常見的混合區(qū)域約束。區(qū)域約束容易導(dǎo)致現(xiàn)有算法陷入局部最優(yōu)而難以進(jìn)一步優(yōu)化。在此背景下,林亦波研究員-王潤聲教授研究團(tuán)隊(duì)開發(fā)了一種基于二階梯度信息的混合區(qū)域約束魯棒布局算法——MORPH。該算法首次將混合區(qū)域約束整合到一個(gè)統(tǒng)一的多靜電系統(tǒng)模型中,并提出了一個(gè)包含二階信息的魯棒非線性全局布局框架,以解決收斂性問題。在ISPD 2015測試數(shù)據(jù)集上的實(shí)驗(yàn)表明,MORPH實(shí)現(xiàn)了5.6%至14.3%的線長提升,降低了10%至24%的布線擁塞,并表現(xiàn)出更為穩(wěn)定的收斂性。該研究以《MORPH: More Robust ASIC Placement for Hybrid Region Constraint Management》為題發(fā)表(博士生麥景為第一作者,林亦波研究員為通訊作者)。

06.ATPlace2.5D:面向2.5D芯粒系統(tǒng)的熱感知布局技術(shù)

2.5D-IC通過集成多個(gè)Chiplet芯粒以降低計(jì)算系統(tǒng)的成本,并提高整體性能。但是高度集成的芯粒系統(tǒng)往往難以權(quán)衡性能和溫度,限制了進(jìn)一步的大規(guī)模集成。林亦波研究員-王潤聲教授研究團(tuán)隊(duì)提出了一種面向大規(guī)模2.5D-IC的熱感知芯粒布局框架ATPlace2.5D。該算法提出一種基于物理模型的集約熱模型,指導(dǎo)布局框架優(yōu)化芯粒位置和旋轉(zhuǎn)角度,提供平衡總線長和溫度的布局方案。實(shí)驗(yàn)結(jié)果表明,ATPlace2.5D可以在幾分鐘內(nèi)處理超過60個(gè)芯粒的2.5D-IC系統(tǒng),并且最大溫度和總線長分別較現(xiàn)有算法TAP-2.5D優(yōu)化了5%和42%,效率提升了23倍。這一進(jìn)展有望推動(dòng)大規(guī)模2.5D-IC自動(dòng)設(shè)計(jì)的發(fā)展。相關(guān)成果以《ATPlace2.5D: Analytical Thermal-Aware Chiplet Placement Framework for Large-Scale 2.5D-IC》為題發(fā)表(博士生王啟盼為第一作者,林亦波為通訊作者)。

07.面向數(shù)模混合信號電路的多層次聯(lián)合布局優(yōu)化方法

數(shù)?;旌闲盘栯娐酚猛緩V泛,包括新興的自動(dòng)駕駛和物聯(lián)網(wǎng)等,這些應(yīng)用場景要求數(shù)?;旌闲盘栯娐返脑O(shè)計(jì)實(shí)現(xiàn)自動(dòng)化和快速迭代。然而,數(shù)?;旌想娐吩O(shè)計(jì)通常需要大量人工介入進(jìn)行定制設(shè)計(jì),導(dǎo)致設(shè)計(jì)周期長。為提高設(shè)計(jì)效率,滿足各類設(shè)計(jì)指標(biāo),林亦波研究員-王潤聲教授研究團(tuán)隊(duì)提出了一種多層次聯(lián)合布局優(yōu)化方法,可同時(shí)對各個(gè)電路層次進(jìn)行布局,并考慮包括面積、線長、對稱性、線性與信號流在內(nèi)的多種布局約束。在多個(gè)不同類型的電路上,實(shí)驗(yàn)結(jié)果表明,該方法可以在幾分鐘時(shí)間內(nèi)完成布局,實(shí)現(xiàn)與人工設(shè)計(jì)版圖接近的電路后仿真性能。該工作以《Joint Placement Optimization for Hierarchical Analog/Mixed-Signal Circuits》為題發(fā)表(博士生高笑涵為第一作者,林亦波研究員為通訊作者)。

08.基于代碼強(qiáng)化和自反思的大模型RTL代碼生成

隨著大規(guī)模語言模型(LLM)技術(shù)的快速發(fā)展,GPT-4和Claude3-Opus等商業(yè)模型在RTL(寄存器傳輸級)代碼生成領(lǐng)域展現(xiàn)出了巨大潛力。然而,這些商業(yè)模型往往面臨隱私和安全方面的問題。雖然開源LLM能夠解決這些顧慮,但由于缺乏高質(zhì)量的RTL訓(xùn)練數(shù)據(jù)集,其在代碼生成任務(wù)上的表現(xiàn)遠(yuǎn)遜于商業(yè)模型。針對這一問題,梁云團(tuán)隊(duì)提出了一個(gè)全新的開源框架OriGen,通過代碼增強(qiáng)和自反思機(jī)制顯著提升了RTL代碼生成的質(zhì)量。OriGen通過基于知識蒸餾的代碼到代碼增強(qiáng)方法,有效擴(kuò)充了開源RTL代碼數(shù)據(jù)集的規(guī)模和質(zhì)量。同時(shí),該框架開發(fā)了基于編譯器反饋的自反思機(jī)制,能夠有效識別和修正代碼中的語法錯(cuò)誤?;鶞?zhǔn)測試結(jié)果表明,OriGen大幅超越之前的最佳開源模型,達(dá)到先進(jìn)商業(yè)模型的水平,并在自反思能力評估基準(zhǔn)上超越了GPT-4達(dá)18.1%。該工作以《OriGen: Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection》為題發(fā)表(博士生崔璠為第一作者,梁云教授為通訊作者)。

人工智能調(diào)度、映射和加速器設(shè)計(jì)方向發(fā)表論文(共6篇)總結(jié)如下:

01.HG-PIPE:使用混合粒度流水線的視覺轉(zhuǎn)換器模型加速技術(shù)

視覺轉(zhuǎn)換器是目前最為流行的用于計(jì)算機(jī)視覺任務(wù)的神經(jīng)網(wǎng)絡(luò)主干,在多種場景中有著廣泛的應(yīng)用。在一些端側(cè)應(yīng)用如自動(dòng)駕駛和虛擬現(xiàn)實(shí)等應(yīng)用中,推理延遲是極其重要的指標(biāo),典型延遲需求在10ms左右。然而視覺轉(zhuǎn)換器模型的體量通常比卷積網(wǎng)絡(luò)模型大出一個(gè)數(shù)量級,這對于硬件平臺的性能和算法加速方案提出了嚴(yán)峻的考驗(yàn)。在專用的硬件架構(gòu)設(shè)計(jì)中,流水線架構(gòu)是一種常用的設(shè)計(jì)方案,在多階段的神經(jīng)網(wǎng)絡(luò)推理中起到降低推理延遲的效果。然而視覺轉(zhuǎn)換器的特性導(dǎo)致目前的流水線方案的硬件實(shí)現(xiàn)較為困難,可能導(dǎo)致極大的片上緩存代價(jià)與潛在的流水線氣泡。為解決該問題,李萌研究員-王源教授研究團(tuán)隊(duì)提出一種混合粒度流水線技術(shù),解決視覺轉(zhuǎn)換器模型中由于注意力機(jī)制引入的全局依賴性導(dǎo)致的粒度沖突問題,在低硬件代價(jià)下實(shí)現(xiàn)了無氣泡的流水線推理。通過在FPGA平臺上的實(shí)現(xiàn),該方案相較于v100 GPU快出2.81倍,比此前最先進(jìn)的視覺轉(zhuǎn)換器加速方案快出2.72倍。在先進(jìn)FPGA平臺上,該加速方案的延遲低至1.94ms,以支持各種延遲敏感應(yīng)用。該工作以《HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline》為題發(fā)表(博士生郭晴宇為第一作者,李萌研究員和王源教授為通訊作者)。

02.OSCA:使用隨機(jī)計(jì)算提升計(jì)算精度與硬件效率的神經(jīng)加速器

近年來,人工智能技術(shù)的飛速發(fā)展對高效神經(jīng)網(wǎng)絡(luò)加速器的需求日益增長。作為一種極具潛力的新型計(jì)算架構(gòu),隨機(jī)計(jì)算被不少研究者用來設(shè)計(jì)具有極高硬件效率的神經(jīng)網(wǎng)絡(luò)加速器。然而,傳統(tǒng)的隨機(jī)計(jì)算加速器面臨嚴(yán)重的精度挑戰(zhàn),主要是由于比特流乘法和加法中的誤差以及激活函數(shù)單元不兼容先進(jìn)模型所需非線性非單調(diào)激活函數(shù),這反過來又影響了加速器的硬件效率。李萌研究員-王潤聲教授研究團(tuán)隊(duì)提出了一種名為OSCA的新型端到端串行隨機(jī)計(jì)算神經(jīng)加速器。該加速器通過自適應(yīng)量化累加,相關(guān)性無關(guān)乘法和創(chuàng)新的分段激活函數(shù)單元,顯著提高了計(jì)算精度和硬件效率。在和串行加速器對比中,OSCA降低了30.18%均方根誤差的同時(shí)還降低了87.75%的硬件代價(jià);與更精確的并行加速器相比,OSCA降低了92.05%的硬件代價(jià),面積效率提高了12.54倍的同時(shí),推理精度提高了0.44%和0.86%。相關(guān)研究成果以《OSCA: End-to-end Serial Stochastic Computing Neural Acceleration with Fine-grained Scaling and Piecewise Activation》為題發(fā)表(博士生胡逸軒為第一作者,李萌研究員為通訊作者)。

03.大模型Chiplet的架構(gòu)電源協(xié)同優(yōu)化

大規(guī)模語言模型(LLM)對高效能和高性能硬件的需求,推動(dòng)了可擴(kuò)展Chiplet芯粒技術(shù)的發(fā)展,對功耗的優(yōu)化和管理提出了更高的需求。黃如院士-葉樂教授、賈天宇研究員團(tuán)隊(duì)提出了一種針對LLM應(yīng)用的芯粒設(shè)計(jì)層次化電源供電的協(xié)同優(yōu)化和管理方法。為了模擬LLM的工作負(fù)載映射和電源供應(yīng),該方法首先建立了一個(gè)可擴(kuò)展的芯粒系統(tǒng)模擬器,該模擬器展示了不同的電源策略對效率有顯著影響,需進(jìn)行電源管理、硬件架構(gòu)、與映射策略的協(xié)同設(shè)計(jì)和優(yōu)化。該方法進(jìn)一步開發(fā)了一個(gè)面向芯粒系統(tǒng)的電源管理優(yōu)化框架ScalePoM。根據(jù)給定的LLM模型以及性能、功耗、面積(PPA)需求,ScalePoM可以自動(dòng)探索芯粒系統(tǒng)的架構(gòu)和工作負(fù)載映射,以實(shí)現(xiàn)最優(yōu)的層次化電源管理。該協(xié)同優(yōu)化方法通過評估兩種具有不同互連拓?fù)涞目蓴U(kuò)展LLM芯粒系統(tǒng),實(shí)現(xiàn)了大型語言模型推理過程中平均45%和最高62%的能耗節(jié)省。該工作以《HierarchicalPowerCo-OptimizationandManagementforLLMChipletDesigns》為題發(fā)表(博士生董彥池為第一作者,賈天宇研究員為通訊作者)。

04.AdapMoE:基于敏感度分析和自適應(yīng)專家選擇與管理的混合專家模型高效推理技術(shù)

混合專家模型(MoE)通過稀疏激活減少了大語言模型的計(jì)算需求,但在邊緣設(shè)備上部署時(shí)面臨權(quán)重存儲(chǔ)需求過高的問題。許多研究嘗試通過將模型權(quán)重卸載到更低級存儲(chǔ),在需要時(shí)按需加載的方式進(jìn)行部署。然而,現(xiàn)有的方法在處理混合專家模型這類具有高度動(dòng)態(tài)性的任務(wù)時(shí),具有極大的按需加載開銷。李萌研究員-黃如院士團(tuán)隊(duì)提出了一個(gè)算法與系統(tǒng)協(xié)同設(shè)計(jì)的高效混合專家模型推理框架AdapMoE,旨在降低專家按需加載的延遲。AdapMoE創(chuàng)新性地采用了基于敏感度的自適應(yīng)專家選擇機(jī)制,動(dòng)態(tài)調(diào)整激活專家的數(shù)量,并集成了高級預(yù)取和緩存管理技術(shù),以減少加載延遲。AdapMoE在保持精度的前提下,將激活的專家數(shù)量減少了25%,并實(shí)現(xiàn)了1.35倍的端到端的加速效果。該工作以《AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference》為題發(fā)表(博士生仲書璋為第一作者,李萌研究員為通訊作者)

05.ProPD:基于動(dòng)態(tài)字符樹剪枝與生成的大模型并行解碼優(yōu)化技術(shù)

生成式大語言模型由于自回歸解碼的特征,計(jì)算密度較低,從而面臨著嚴(yán)重的存儲(chǔ)帶寬墻問題。為此,許多研究提出了并行解碼方法,通過一次生成多個(gè)后續(xù)位置預(yù)測,繼而并行驗(yàn)證的方式,緩解了存儲(chǔ)帶寬墻問題。但這類方法在保持上下文關(guān)系方面存在不足,尤其是在大批量處理下驗(yàn)證開銷巨大。針對這一問題,李萌研究員-黃如院士團(tuán)隊(duì)提出了ProPD,一種基于動(dòng)態(tài)字符樹剪枝與生成的高效并行解碼框架。ProPD通過引入早期剪枝機(jī)制,顯著減少不必要的令牌驗(yàn)證開銷,同時(shí)動(dòng)態(tài)調(diào)整令牌樹生成過程,以實(shí)時(shí)平衡計(jì)算量與并行度,優(yōu)化不同批量和任務(wù)場景下的整體效率。在多個(gè)數(shù)據(jù)集和模型上的實(shí)驗(yàn)結(jié)果顯示,ProPD在保證相同輸出的情況下實(shí)現(xiàn)了1.1至3.2倍的加速效果。該工作以《ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding》為題發(fā)表(博士生仲書璋為第一作者,李萌研究員為通訊作者)

06.MCUBERT:考慮硬件資源的網(wǎng)絡(luò)-調(diào)度-計(jì)算核協(xié)同優(yōu)化技術(shù)

神經(jīng)網(wǎng)絡(luò)在邊端微處理器上的部署與推理,具有低延遲、低能耗、隱私保護(hù)等特點(diǎn),近年來成為備受關(guān)注的問題。由于微處理器在存儲(chǔ)、內(nèi)存資源上存在嚴(yán)格的限制,導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型難以直接部署在微處理器上。近年來,不少研究嘗試?yán)玫捅忍亓炕⒓糁Φ仁侄谓档屯评黹_銷。然而,現(xiàn)有的輕量化方法存在低準(zhǔn)確率、需要專用計(jì)算核等問題。于此同時(shí),傳統(tǒng)的計(jì)算核設(shè)計(jì)與微處理器的適配性較低,造成較大的推理延遲。李萌研究員-黃如院士團(tuán)隊(duì)提出了一種網(wǎng)絡(luò)-調(diào)度-計(jì)算核協(xié)同優(yōu)化技術(shù),首次將語言模型BERT部署在微處理器上,在MNLI測試數(shù)據(jù)集上實(shí)現(xiàn)了5.7倍的模型壓縮和3.5倍的峰值內(nèi)存占用壓縮。同時(shí)通過計(jì)算核優(yōu)化實(shí)現(xiàn)了1.5倍的模型推理加速。該工作以《MCUBERT: Memory-Efficient BERT Inference on Commodity Microcontrollers》為題發(fā)表(博士生楊澤斌為第一作者,李萌研究員為通訊作者)。

人工智能隱私計(jì)算方向發(fā)表論文(共2篇)總結(jié)如下:

01.FlexHE:基于同態(tài)加密的隱私推理核函數(shù)生成框架

基于同態(tài)加密的安全兩方計(jì)算框架可以很好地保護(hù)數(shù)據(jù)隱私,并越來越多的被應(yīng)用到了神經(jīng)網(wǎng)絡(luò)的隱私推理中。由于同態(tài)加密技術(shù)只能對多項(xiàng)式進(jìn)行運(yùn)算,現(xiàn)有研究通過手動(dòng)設(shè)計(jì)的同態(tài)加密核函數(shù)來支持典型的神經(jīng)網(wǎng)絡(luò)算子。然而,考慮到不同的算子計(jì)算模式、輸入輸出尺寸,以及密碼學(xué)參數(shù),手動(dòng)設(shè)計(jì)存在可擴(kuò)展性差的問題,即對于某種特定場景與算子設(shè)計(jì)的核函數(shù)可能在其他場景下表現(xiàn)不佳甚至得到錯(cuò)誤結(jié)果。李萌研究團(tuán)隊(duì)提出了一種自動(dòng)化的同態(tài)核函數(shù)生成框架,實(shí)現(xiàn)了正確且高效的核函數(shù)生成。相比于此前的自動(dòng)化生成框架以及手動(dòng)優(yōu)化的核函數(shù),該工作最高實(shí)現(xiàn)了超過100倍以及8倍左右的延遲優(yōu)化。該工作以《FlexHE: a Flexible Kernel Generation Framework forHomomorphic Encryption-Based Private Inference》為題發(fā)表(博士生俞江瑞為第一作者,李萌研究員為通訊作者)。

02.PrivQuant:基于協(xié)議與量化神經(jīng)網(wǎng)絡(luò)協(xié)同優(yōu)化的通信高效隱私推理

基于安全二方計(jì)算 (2PC) 的私有深度神經(jīng)網(wǎng)絡(luò) (DNN) 推理可為服務(wù)器和客戶端提供安全的隱私保護(hù)。然而,現(xiàn)有的安全 2PC 框架由于大量通信而存在高推理延遲的問題。由于線性和非線性 DNN 層的通信隨著權(quán)重和激活的位寬而減少,李萌研究員團(tuán)隊(duì)提出了 PrivQuant,通過聯(lián)合優(yōu)化基于 2PC 的量化推理協(xié)議和網(wǎng)絡(luò)量化算法,可實(shí)現(xiàn)通信高效的私有推理。PrivQuant 針對通信密集型量化運(yùn)算符的 2PC 協(xié)議提出了 DNN 架構(gòu)感知優(yōu)化,并進(jìn)行圖級運(yùn)算符融合以減少通信。此外,PrivQuant 還開發(fā)了一種通信感知的混合精度量化算法,以提高推理效率同時(shí)保持高精度。網(wǎng)絡(luò)/協(xié)議共同優(yōu)化使 PrivQuant 的表現(xiàn)優(yōu)于現(xiàn)有技術(shù)的 2PC 框架。通過大量實(shí)驗(yàn),我們證明與 SiRNN、COINN 和 CoPriv 相比, PrivQuant 將通信量減少了 11 倍、2.5 倍和 2.8 倍,延遲減少了 8.7 倍、1.8 倍和 2.4 倍。(博士生許天識為第一作者,李萌研究員為通訊作者)。

背景介紹:

由電氣電子工程師學(xué)會(huì)(IEEE)和美國計(jì)算機(jī)學(xué)會(huì)(ACM)共同舉辦的國際計(jì)算機(jī)輔助設(shè)計(jì)會(huì)議(ICCAD)被公認(rèn)為EDA領(lǐng)域最重要的會(huì)議之一,享有很高的國際學(xué)術(shù)地位和廣泛的影響力。該會(huì)議是探索EDA研究領(lǐng)域新挑戰(zhàn)、展示前沿創(chuàng)新解決方案和識別新興技術(shù)的重要論壇,涵蓋了從器件和電路級到系統(tǒng)級的所有設(shè)計(jì)與自動(dòng)化主題、以及后CMOS設(shè)計(jì)等新型方向。ICCAD 2024為第43屆會(huì)議,于2024年10月27日至10月31日在美國新澤西舉行。

責(zé)編: 集小微
來源:北京大學(xué) #北大集成電路# #人工智能# #北京大學(xué)# #北大集成#
THE END
關(guān)閉
加載

PDF 加載中...

亚洲福利左线观看| 女人182毛片a级毛片| 女生小穴色色视频| 久久久久久久久黄片观看| 亚洲欧美日韩另类| 亚洲v国产v天堂a无码| 一区二区三区亚洲av| 亚洲av伦理一区二区三区久久| 骚女性爱视频在线看| 中文字幕一高清免费视频| 我想看操小嫩逼大片| 一色道久久88加勒比一| 午夜精品在线视频| 91kaobi视频在线| 久久国产亚洲高清| 淫荡扣逼骚逼视频| 成人精品视频区一区二区三| 99热这里只有精品亚洲| 成人毛片一级特黄| 国产福利一区二区精品秒拍| 国产欧美日本韩国一区二区| 精品久久久久久不卡亚洲| 久久久久久久 亚洲精品| 亚洲欧美一区二区三区孕妇 | 日本人妻与家公的伦理片| 日韩欧美一二三区| 国产美女裸体视频全免费| a一级毛片免费高清在线| 大胸瑟瑟黑丝午夜| 国产亚洲精品高清视频免费| 激烈18禁高潮视频免费| 欧洲美熟女乱又伦| 大香蕉尹人97超级视频| 蜜臀av一区二区三区免费观| 97性无码区免费| 日韩av大片一区二区三区| 最新的精品亚洲一区二区| 中国老女人 操逼 视频| 欧美 日韩 激情 在线| 伊人久久综合无码成人网| 精彩欧美一区二区三区|