英偉達(dá)Blackwell芯片訓(xùn)練大型AI系統(tǒng)效率翻倍，所需芯片數(shù)量大幅減少

作者：孫樂 06-05 07:04

來源：愛集微 #英偉達(dá)# #AI芯片#

4917

據(jù)新數(shù)據(jù)顯示，英偉達(dá)最新芯片在大型人工智能（AI）系統(tǒng)訓(xùn)練方面取得進(jìn)展，訓(xùn)練大型語言模型所需的芯片數(shù)量大幅下降。

MLCommons是一家發(fā)布AI系統(tǒng)基準(zhǔn)性能結(jié)果的非營利組織，它發(fā)布了英偉達(dá)和AMD等公司芯片的最新數(shù)據(jù)，這些芯片用于訓(xùn)練。在訓(xùn)練過程中，AI系統(tǒng)需要輸入大量數(shù)據(jù)進(jìn)行學(xué)習(xí)。盡管股市的大部分注意力已經(jīng)轉(zhuǎn)移到更大的AI推理市場（即AI系統(tǒng)處理用戶的問題），但訓(xùn)練系統(tǒng)所需的芯片數(shù)量仍然是一個(gè)關(guān)鍵的競爭因素。中國的DeepSeek聲稱將使用比美國競爭對手少得多的芯片來打造一款具有競爭力的聊天機(jī)器人。

這是MLCommons首次發(fā)布的關(guān)于芯片在訓(xùn)練Llama 3.1 405B等AI系統(tǒng)方面表現(xiàn)的測試結(jié)果。Llama 3.1 405B是由Meta Platforms發(fā)布的開源AI模型，其擁有足夠多的“參數(shù)”，足以展現(xiàn)芯片在處理一些全球最復(fù)雜的訓(xùn)練任務(wù)（可能涉及數(shù)萬億個(gè)參數(shù)）時(shí)的表現(xiàn)。

英偉達(dá)及其合作伙伴是唯一提交該大型模型訓(xùn)練數(shù)據(jù)的參賽者。數(shù)據(jù)顯示，英偉達(dá)的新款Blackwell芯片的單芯片速度是上一代Hopper芯片的兩倍多。

英偉達(dá)新款芯片最快的測試結(jié)果是，2496塊Blackwell芯片在27分鐘內(nèi)完成訓(xùn)練測試。數(shù)據(jù)顯示，許多英偉達(dá)上一代芯片的測試時(shí)間是Blackwell芯片的三倍多，才能達(dá)到更快的速度。

CoreWeave首席產(chǎn)品官Chetan Kapoor表示，AI行業(yè)目前有一種趨勢，即將更小的芯片組串聯(lián)成子系統(tǒng)，用于單獨(dú)的AI訓(xùn)練任務(wù)，而不是創(chuàng)建10萬塊或更多芯片的同質(zhì)組。該公司與英偉達(dá)合作開發(fā)了部分成果。

Chetan Kapoor表示：“使用這樣的方法，他們能夠繼續(xù)加速或縮短訓(xùn)練這些擁有數(shù)萬億參數(shù)的模型所需的時(shí)間?！?/p>