2024年11月2日至6日,第57屆國際微架構會議(The 57th Annual IEEE/ACM International Symposium on Microarchitecture, MICRO)在美國德州奧斯汀召開,微電子科學與技術學院院長虞志益教授領導的智能計算團隊提出的面向GPGPU存儲一致性緩存架構研究的相關工作被該會議錄用并作口頭報告。
這一成果的發(fā)表,標志著我院在GPGPU體系結構和存算一體架構研究領域取得重要進展,亦是中山大學首次以第一完成單位在MICRO上發(fā)表論文。
本論文得到了國家自然科學基金重大研究計劃和廣東省自然科學基金等項目支持。論文指導教師兼通訊作者是我院王明羽副教授,第一作者是我院21級博士生張奕聰。值得慶賀的是,本論文的發(fā)表恰逢我校百年校慶來臨之際,也是智能計算團隊為我校百年校慶的獻禮。
內容摘要
本論文主要針對GPGPU存儲系統(tǒng)中的數(shù)據(jù)同步和原子操作效率等問題,提出了一種原子緩存(Atomic Cache),以促進GPGPU的內緩存計算硬件-軟件協(xié)同設計。在軟件層面,提出基于非排序交換的放松存儲一致性模型,以減輕存內原子操作的執(zhí)行,從而降低內存屏障的性能開銷。在硬件層面,提出原位存儲原子緩存電路,使得原子緩存能夠高效地在緩存陣列內執(zhí)行原子邏輯和算術操作。這些創(chuàng)新的優(yōu)勢體現(xiàn)在放寬對順序一致性(SC)的嚴格要求可以避免內存屏障帶來的性能損失,促進在原位存儲SRAM陣列內高效執(zhí)行原子性存內算術和邏輯計算可以緩解由原子操作序列化執(zhí)行引起的馮·諾依曼瓶頸。實驗評估結果表明,原子緩存在節(jié)省超過60%的內存訪問能耗的同時,僅增加9.42%的芯片面積開銷。此外,它不僅為基準GPGPU提供了平均2.59倍的加速比和1.48倍的IPC性能提升,還與采用本地原子緩沖區(qū)的最先進設計相比,實現(xiàn)了平均1.31倍的加速比和39.92%的IPC性能提升。
圖1:原子緩存整體架構
圖2:原位存儲原子緩存宏架構
會議簡介
由電氣電子工程師協(xié)會(IEEE)和美國計算機學會(ACM)共同舉辦的微架構國際研討會(MICRO)是最具影響力的體系結構領域頂級會議之一,被公認為與ISCA、HPCA、ASPLOS并列計算機體系結構四大頂會,其中,MICRO是這四大會議中歷史最悠久的會議,并且MICRO 還與ISCA作為兩大會議入選中國人工智能學會(CAAI)認定的智能芯片與計算機系統(tǒng)領域的A類會議,同時也是中國計算機學會推薦的計算機體系結構/并行與分布計算/存儲系統(tǒng)領域的A類會議。自1968年創(chuàng)辦以來,截至2024年,前56屆MICRO會議總共收錄論文2236篇,其中中國大陸高校、科研機構和企業(yè)總共發(fā)表論文僅有78篇,占比不到5%,而高校發(fā)表則更少,MICRO仍是我國學者需要重點關注突破的頂級會議之一。