打破科技巨頭算力壟斷,個(gè)人開發(fā)者聯(lián)手也能訓(xùn)練超大規(guī)模AI模型?
Nous Research宣布推出Psyche Network,可以將全球算力整合起來(lái)訓(xùn)練強(qiáng)大的人工智能。
Psyche是一個(gè)基于Deepseek的V3 MLA架構(gòu)的去中心化訓(xùn)練網(wǎng)絡(luò),測(cè)試網(wǎng)首次啟動(dòng)時(shí)直接對(duì)40B參數(shù)LLM進(jìn)行預(yù)訓(xùn)練,可以在單個(gè)H/DGX上訓(xùn)練,并在3090 GPU上運(yùn)行。
以往類似規(guī)模的模型訓(xùn)練往往需要耗費(fèi)大量的資源和時(shí)間,并且通常是由大型科技公司或?qū)I(yè)研究機(jī)構(gòu)憑借其雄厚的資金和算力優(yōu)勢(shì)來(lái)完成的。
Psyche的出現(xiàn)讓個(gè)人和小團(tuán)體也可獲取資源創(chuàng)建獨(dú)特大規(guī)模模型。
對(duì)此,有網(wǎng)友表示,Nous Research有潛力成為新的前沿AI實(shí)驗(yàn)室。
技術(shù)突破和網(wǎng)絡(luò)架構(gòu)
DisTrO優(yōu)化器
在傳統(tǒng)AI訓(xùn)練中,數(shù)據(jù)需在中心服務(wù)器與分布式GPU之間高頻傳輸,帶寬不足會(huì)導(dǎo)致GPU利用率暴跌。
2024年Nous研發(fā)的DisTrO分布式訓(xùn)練優(yōu)化器,通過(guò)梯度壓縮(僅傳輸關(guān)鍵參數(shù)更新)和異步更新策略,將跨節(jié)點(diǎn)通信的數(shù)據(jù)量降低90%以上,突破了訓(xùn)練過(guò)程中的帶寬限制,使得訓(xùn)練可以去中心化。
點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)堆棧
Psyche創(chuàng)建了一個(gè)自定義的點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)堆棧,用于協(xié)調(diào)全球分布式GPU運(yùn)行DisTrO。
這個(gè)基于P2P(點(diǎn)對(duì)點(diǎn))協(xié)議的專用網(wǎng)絡(luò)層,無(wú)需依賴中心化服務(wù)器協(xié)調(diào),全球GPU可直接通過(guò)加密通道交換梯度數(shù)據(jù)。
這一設(shè)計(jì)徹底擺脫了對(duì)傳統(tǒng)云服務(wù)商高帶寬網(wǎng)絡(luò)的依賴,即使是家用寬帶連接的GPU,也能穩(wěn)定參與訓(xùn)練。
系統(tǒng)架構(gòu)
Psyche網(wǎng)絡(luò)架構(gòu)有三個(gè)主要部分:
coordinator:協(xié)調(diào)器,存儲(chǔ)有關(guān)訓(xùn)練運(yùn)行狀態(tài)和參與者列表的元數(shù)據(jù)。處理一輪訓(xùn)練中每個(gè)階段之間的轉(zhuǎn)換,且負(fù)責(zé)為運(yùn)行中的所有客戶端提供同步點(diǎn)。
clients:客戶端,負(fù)責(zé)訓(xùn)練、見(jiàn)證和驗(yàn)證。每個(gè)客戶端都保持自身狀態(tài)與協(xié)調(diào)器同步。
data provider:負(fù)責(zé)提供訓(xùn)練所需的數(shù)據(jù)??梢允潜镜氐囊部梢允荋TTP或 CP提供者。
40B參數(shù)LLM預(yù)訓(xùn)練
此前互聯(lián)網(wǎng)公開的大規(guī)模預(yù)訓(xùn)練多由Meta、Google等巨頭主導(dǎo)(如LLaMA 2的700億參數(shù)模型),Psyche以去中心化模式實(shí)現(xiàn)同等級(jí)別訓(xùn)練。
Psyche首次測(cè)試網(wǎng)運(yùn)行使用的是Deepseek的V3 MLA架構(gòu)。
MLA通過(guò)低秩聯(lián)合壓縮鍵值和矩陣分解技術(shù),降低計(jì)算復(fù)雜度與內(nèi)存占用,使 400 億參數(shù)大語(yǔ)言模型在有限算力下高效訓(xùn)練。
多頭注意力機(jī)制與潛空間表示學(xué)習(xí)相結(jié)合,提升模型語(yǔ)言理解與生成能力;并且,旋轉(zhuǎn)位置嵌入的運(yùn)用,有效解決長(zhǎng)序列位置依賴問(wèn)題,從多維度保障了訓(xùn)練的高效性與模型性能的優(yōu)質(zhì)性。
數(shù)據(jù)集:
使用了FineWeb(14T)、去除部分不常見(jiàn)語(yǔ)言的FineWeb-2(4T)和The Stack v2(1T),些數(shù)據(jù)集涵蓋豐富信息,為模型訓(xùn)練提供了有力支持。
分布式訓(xùn)練策略:
模型并行與數(shù)據(jù)并行結(jié)合:將400億參數(shù)拆解為128個(gè)分片,分布在不同節(jié)點(diǎn)進(jìn)行 “模型并行” 訓(xùn)練,同時(shí)每個(gè)節(jié)點(diǎn)處理獨(dú)立的數(shù)據(jù)批次(“數(shù)據(jù)并行”),通過(guò)DisTrO優(yōu)化器同步梯度更新。
動(dòng)態(tài)自適應(yīng)批量大?。焊鶕?jù)節(jié)點(diǎn)網(wǎng)絡(luò)延遲自動(dòng)調(diào)整每個(gè)批次的訓(xùn)練數(shù)據(jù)量(如高延遲節(jié)點(diǎn)使用較小批次,減少等待時(shí)間),使全局訓(xùn)練效率提升25%。
未來(lái)將是分布式訓(xùn)練的天下?
隨著AI模型參數(shù)規(guī)模呈指數(shù)級(jí)增長(zhǎng),傳統(tǒng)集中式訓(xùn)練模式正面臨算力壟斷、成本高昂和擴(kuò)展性瓶頸的嚴(yán)峻挑戰(zhàn)。
分布式訓(xùn)練的崛起,正在徹底改寫這一格局。
就在幾天前,Prime Intellect發(fā)布了首個(gè)分布式RL訓(xùn)練模型INTELLEC-2,引起了廣泛關(guān)注。
Nous Research也稱Psyche初始訓(xùn)練只是起點(diǎn),后續(xù)計(jì)劃整合監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)等完整的訓(xùn)練后階段工作,以及推理和其他可并行工作負(fù)載。
誰(shuí)能站穩(wěn)分布式訓(xùn)練擂臺(tái)?當(dāng)然,我們期待更多更優(yōu)秀的成果~