近日,西安電子科技大學(xué)廣州研究院盛凱教授團(tuán)隊(duì)的論文"Cherry: Breaking the GPU Memory Wall for Large-Scale GNN Training via Micro-Batching"被高性能計(jì)算領(lǐng)域的國(guó)際頂級(jí)會(huì)議——2025年國(guó)際超級(jí)計(jì)算會(huì)議(2025 ACM International Conference on Supercomputing, ACM ICS 2025)錄用。論文第一作者為團(tuán)隊(duì)教師何鑫指導(dǎo)的2021級(jí)本科生汪焱,通訊作者為何鑫。
該研究工作針對(duì)大規(guī)模圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)訓(xùn)練面臨的GPU內(nèi)存墻挑戰(zhàn),提出了一種新穎高效的微批量訓(xùn)練方法Cherry。Cherry的關(guān)鍵在于利用消息傳遞流圖輔助的分區(qū)技術(shù)以及基于微批的數(shù)據(jù)加載機(jī)制的有機(jī)結(jié)合,共同減少微批量分區(qū)中的冗余和負(fù)載不平衡,并降低訓(xùn)練過(guò)程中與數(shù)據(jù)準(zhǔn)備相關(guān)的開(kāi)銷。實(shí)驗(yàn)評(píng)估表明,Cherry能夠支持超出設(shè)備內(nèi)存容量的大規(guī)模GNN訓(xùn)練,并且無(wú)論是在減少內(nèi)存消耗還是訓(xùn)練效率方面,均顯著優(yōu)于現(xiàn)有方法。該研究成果將有助于顯著降低大規(guī)模GNN訓(xùn)練的硬件部署成本。
Cherry的設(shè)計(jì)框架
ICS是國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)主辦的高性能計(jì)算領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議。會(huì)議主題是高性能計(jì)算系統(tǒng)的研究與應(yīng)用,聚焦于超大規(guī)模和異構(gòu)高性能計(jì)算機(jī)架構(gòu),高性能計(jì)算、大數(shù)據(jù)和人工智能等領(lǐng)域軟件,以及新型的超級(jí)計(jì)算應(yīng)用。2025年ICS會(huì)議將于6月8-11號(hào)在美國(guó)猶他州鹽湖城召開(kāi)。該論文合作單位還包括中科院計(jì)算所、湖南大學(xué)、紐約州立大學(xué)賓漢姆頓分校。
本次成果的錄用標(biāo)志著學(xué)校在該領(lǐng)域的研究得到了國(guó)際同行的進(jìn)一步關(guān)注與認(rèn)可。