中山大學(xué)虞志益、王明羽團(tuán)隊:第57屆國際微架構(gòu)會議中發(fā)表針對GPGPU存儲架構(gòu)取得重要進(jìn)展的研究報告

作者：愛集微 2024-11-08

來源：中山大學(xué)微電子科學(xué)與技術(shù)學(xué)院 #GPGPU存儲架# #中大#

1.3w

2024年11月2日至6日，第57屆國際微架構(gòu)會議（The 57th Annual IEEE/ACM International Symposium on Microarchitecture, MICRO）在美國德州奧斯汀召開，微電子科學(xué)與技術(shù)學(xué)院院長虞志益教授領(lǐng)導(dǎo)的智能計算團(tuán)隊提出的面向GPGPU存儲一致性緩存架構(gòu)研究的相關(guān)工作被該會議錄用并作口頭報告。

這一成果的發(fā)表，標(biāo)志著我院在GPGPU體系結(jié)構(gòu)和存算一體架構(gòu)研究領(lǐng)域取得重要進(jìn)展，亦是中山大學(xué)首次以第一完成單位在MICRO上發(fā)表論文。

本論文得到了國家自然科學(xué)基金重大研究計劃和廣東省自然科學(xué)基金等項目支持。論文指導(dǎo)教師兼通訊作者是我院王明羽副教授，第一作者是我院21級博士生張奕聰。值得慶賀的是，本論文的發(fā)表恰逢我校百年校慶來臨之際，也是智能計算團(tuán)隊為我校百年校慶的獻(xiàn)禮。

內(nèi)容摘要

本論文主要針對GPGPU存儲系統(tǒng)中的數(shù)據(jù)同步和原子操作效率等問題，提出了一種原子緩存（Atomic Cache），以促進(jìn)GPGPU的內(nèi)緩存計算硬件-軟件協(xié)同設(shè)計。在軟件層面，提出基于非排序交換的放松存儲一致性模型，以減輕存內(nèi)原子操作的執(zhí)行，從而降低內(nèi)存屏障的性能開銷。在硬件層面，提出原位存儲原子緩存電路，使得原子緩存能夠高效地在緩存陣列內(nèi)執(zhí)行原子邏輯和算術(shù)操作。這些創(chuàng)新的優(yōu)勢體現(xiàn)在放寬對順序一致性（SC）的嚴(yán)格要求可以避免內(nèi)存屏障帶來的性能損失，促進(jìn)在原位存儲SRAM陣列內(nèi)高效執(zhí)行原子性存內(nèi)算術(shù)和邏輯計算可以緩解由原子操作序列化執(zhí)行引起的馮·諾依曼瓶頸。實驗評估結(jié)果表明，原子緩存在節(jié)省超過60%的內(nèi)存訪問能耗的同時，僅增加9.42%的芯片面積開銷。此外，它不僅為基準(zhǔn)GPGPU提供了平均2.59倍的加速比和1.48倍的IPC性能提升，還與采用本地原子緩沖區(qū)的最先進(jìn)設(shè)計相比，實現(xiàn)了平均1.31倍的加速比和39.92%的IPC性能提升。

圖1：原子緩存整體架構(gòu)

圖2：原位存儲原子緩存宏架構(gòu)

會議簡介

由電氣電子工程師協(xié)會（IEEE）和美國計算機(jī)學(xué)會（ACM）共同舉辦的微架構(gòu)國際研討會（MICRO）是最具影響力的體系結(jié)構(gòu)領(lǐng)域頂級會議之一，被公認(rèn)為與ISCA、HPCA、ASPLOS并列計算機(jī)體系結(jié)構(gòu)四大頂會，其中，MICRO是這四大會議中歷史最悠久的會議，并且MICRO 還與ISCA作為兩大會議入選中國人工智能學(xué)會（CAAI）認(rèn)定的智能芯片與計算機(jī)系統(tǒng)領(lǐng)域的A類會議，同時也是中國計算機(jī)學(xué)會推薦的計算機(jī)體系結(jié)構(gòu)/并行與分布計算/存儲系統(tǒng)領(lǐng)域的A類會議。自1968年創(chuàng)辦以來，截至2024年，前56屆MICRO會議總共收錄論文2236篇，其中中國大陸高校、科研機(jī)構(gòu)和企業(yè)總共發(fā)表論文僅有78篇，占比不到5%，而高校發(fā)表則更少，MICRO仍是我國學(xué)者需要重點關(guān)注突破的頂級會議之一。