2024年11月2日至6日,第57屆國際微架構(gòu)會議(The 57th Annual IEEE/ACM International Symposium on Microarchitecture, MICRO)在美國德州奧斯汀召開,微電子科學(xué)與技術(shù)學(xué)院院長虞志益教授領(lǐng)導(dǎo)的智能計算團(tuán)隊提出的面向GPGPU存儲一致性緩存架構(gòu)研究的相關(guān)工作被該會議錄用并作口頭報告。
這一成果的發(fā)表,標(biāo)志著我院在GPGPU體系結(jié)構(gòu)和存算一體架構(gòu)研究領(lǐng)域取得重要進(jìn)展,亦是中山大學(xué)首次以第一完成單位在MICRO上發(fā)表論文。
本論文得到了國家自然科學(xué)基金重大研究計劃和廣東省自然科學(xué)基金等項目支持。論文指導(dǎo)教師兼通訊作者是我院王明羽副教授,第一作者是我院21級博士生張奕聰。值得慶賀的是,本論文的發(fā)表恰逢我校百年校慶來臨之際,也是智能計算團(tuán)隊為我校百年校慶的獻(xiàn)禮。
內(nèi)容摘要
本論文主要針對GPGPU存儲系統(tǒng)中的數(shù)據(jù)同步和原子操作效率等問題,提出了一種原子緩存(Atomic Cache),以促進(jìn)GPGPU的內(nèi)緩存計算硬件-軟件協(xié)同設(shè)計。在軟件層面,提出基于非排序交換的放松存儲一致性模型,以減輕存內(nèi)原子操作的執(zhí)行,從而降低內(nèi)存屏障的性能開銷。在硬件層面,提出原位存儲原子緩存電路,使得原子緩存能夠高效地在緩存陣列內(nèi)執(zhí)行原子邏輯和算術(shù)操作。這些創(chuàng)新的優(yōu)勢體現(xiàn)在放寬對順序一致性(SC)的嚴(yán)格要求可以避免內(nèi)存屏障帶來的性能損失,促進(jìn)在原位存儲SRAM陣列內(nèi)高效執(zhí)行原子性存內(nèi)算術(shù)和邏輯計算可以緩解由原子操作序列化執(zhí)行引起的馮·諾依曼瓶頸。實驗評估結(jié)果表明,原子緩存在節(jié)省超過60%的內(nèi)存訪問能耗的同時,僅增加9.42%的芯片面積開銷。此外,它不僅為基準(zhǔn)GPGPU提供了平均2.59倍的加速比和1.48倍的IPC性能提升,還與采用本地原子緩沖區(qū)的最先進(jìn)設(shè)計相比,實現(xiàn)了平均1.31倍的加速比和39.92%的IPC性能提升。
圖1:原子緩存整體架構(gòu)
圖2:原位存儲原子緩存宏架構(gòu)
會議簡介
由電氣電子工程師協(xié)會(IEEE)和美國計算機(jī)學(xué)會(ACM)共同舉辦的微架構(gòu)國際研討會(MICRO)是最具影響力的體系結(jié)構(gòu)領(lǐng)域頂級會議之一,被公認(rèn)為與ISCA、HPCA、ASPLOS并列計算機(jī)體系結(jié)構(gòu)四大頂會,其中,MICRO是這四大會議中歷史最悠久的會議,并且MICRO 還與ISCA作為兩大會議入選中國人工智能學(xué)會(CAAI)認(rèn)定的智能芯片與計算機(jī)系統(tǒng)領(lǐng)域的A類會議,同時也是中國計算機(jī)學(xué)會推薦的計算機(jī)體系結(jié)構(gòu)/并行與分布計算/存儲系統(tǒng)領(lǐng)域的A類會議。自1968年創(chuàng)辦以來,截至2024年,前56屆MICRO會議總共收錄論文2236篇,其中中國大陸高校、科研機(jī)構(gòu)和企業(yè)總共發(fā)表論文僅有78篇,占比不到5%,而高校發(fā)表則更少,MICRO仍是我國學(xué)者需要重點關(guān)注突破的頂級會議之一。