當前數(shù)據(jù)中心對算力的需求正以驚人的速度增長,AMD透露,該公司正計劃打造多達120萬顆GPU的超級計算機集群。業(yè)界認為,此舉是為與英偉達競爭。
AMD的這一表態(tài)來自于該公司執(zhí)行副總裁兼數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理Forrest Norrod,在被問及AMD是否已接到關(guān)于120萬顆GPU集群的咨詢時,F(xiàn)orrest表示,這一表述幾乎是準確的。
業(yè)界表示,通常來說人工智能(AI)訓練集群由幾千個GPU構(gòu)建,通過高速互聯(lián)能力進行連接。相比之下,擁有120萬個GPU的集群幾乎是不可能的。延遲、功耗、不可避免的硬件故障,將是構(gòu)建這一集群需考慮的因素。
AI工作負載對延遲極為敏感,在這種情況下,如果某些數(shù)據(jù)傳輸比其他數(shù)據(jù)傳輸耗時更長,會干擾正常工作。此外,目前的超級計算機每隔幾小時就會發(fā)生一次硬件故障,當規(guī)模擴大至目前已知最大集群的30倍時,這些問題將變得更加突出。
目前已知運行速度最快的超級計算機之一Frontier,GPU數(shù)量“僅有”37888個。
關(guān)于數(shù)量多達百萬顆GPU的構(gòu)思,表明了2020年代AI競賽的嚴肅性,AMD Forrest沒有透露哪個組織正考慮構(gòu)建如此規(guī)模的系統(tǒng),但確實提到有“非常清醒的人”正考慮花費數(shù)百億乃至千億美元在AI訓練集群上。
(校對/劉昕煒)