甲骨文(Oracle)公司推出了新型集群,將通過(guò)甲骨文云基礎(chǔ)設(shè)施(OCI)用于AI訓(xùn)練。這一最強(qiáng)大的集群將基于英偉達(dá)即將推出的Blackwell GPU,總AI性能高達(dá)2.4ZettaFLOPS,比埃隆·馬斯克最近公布的AI集群更加強(qiáng)大。
甲骨文的新超級(jí)計(jì)算機(jī)集群可配置英偉達(dá)Hopper或Blackwell GPU,用于AI和HPC(高性能計(jì)算),以及不同的網(wǎng)絡(luò)設(shè)備,包括帶有ConnectX-7 NIC和ConnectX-8 SuperNIC的超低延遲RoCEv2或基于英偉達(dá)Quantum-2 InfiniBand的網(wǎng)絡(luò),還可根據(jù)性能需求選擇HPC存儲(chǔ):
配備H100 GPU的OCI超級(jí)集群最多可支持16384個(gè)GPU,提供65 FP8/INT8 exaFLOPS峰值性能和13Pb/s的綜合網(wǎng)絡(luò)吞吐量;
配備H200 GPU的OCI超級(jí)集群將于今年晚些時(shí)候推出,可擴(kuò)展至65536個(gè)GPU,提供高達(dá)260 FP8/INT8 exaFLOPS和52Pb/s的網(wǎng)絡(luò)吞吐量;
配備Blackwell B200 GPU的OCI超級(jí)集群將擴(kuò)展至131072個(gè)GPU,提供高達(dá)2.4 FP8/INT8 zettaFLOPS的峰值性能。
OCI即將推出的超級(jí)計(jì)算集群遠(yuǎn)遠(yuǎn)超過(guò)當(dāng)前領(lǐng)先系統(tǒng)的能力。據(jù)甲骨文公司稱,基于B200的頂級(jí)OCI超級(jí)集群的GPU數(shù)量是Frontier超級(jí)計(jì)算機(jī)(使用37888個(gè)AMD Instinct MI250X GPU)的三倍多,是其他超級(jí)集群的六倍多。
即將推出的OCI超級(jí)集群將使用英偉達(dá)的GB200 NVL72液冷機(jī)柜,72個(gè)GPU在單個(gè)NVLink域中以129.6TB/s的總帶寬相互通信。甲骨文表示,英偉達(dá)的Blackwell GPU將于2025年上半年上市(因?yàn)榻衲闎lackwell的可用性有限),但目前還不清楚OCI何時(shí)會(huì)提供滿載Blackwell的集群。(校對(duì)/張杰)