新浪科技訊 7月9日下午消息,在剛結(jié)束的2024世界人工智能大會上,壁仞科技副總裁兼AI軟件首席架構(gòu)師丁云帆在談及計算瓶頸時表示,解決算力瓶頸問題需要從三個維度考慮:硬件集群算力、軟件有效算力、異構(gòu)聚合算力?!皬倪@三個維度把相應(yīng)的工作做好了,即使國產(chǎn)AI芯片單個算力看起來不夠強,也能通過綜合手段提升算力,滿足國內(nèi)大模型訓(xùn)練的需求?!?/p>
丁云帆指出,大模型訓(xùn)練是一個系統(tǒng)工程,需要軟件和硬件結(jié)合起來,同時也需要算法和工程協(xié)同,在這樣一個復(fù)雜系統(tǒng)里面,存在計算、存儲、通信等基礎(chǔ)設(shè)施的挑戰(zhàn),還有集群規(guī)模擴張過程中計算效率的挑戰(zhàn),所以,應(yīng)對算力難題可以從三個維度來看。
第一,硬件集群算力維度。單卡的算力乘以卡的個數(shù)等于集群算力,這樣的集群算力計算方式是非常簡單的。單卡算力因為各方面的限制,能做的上限是有限的,但單芯片本身在微架構(gòu)層面還是有創(chuàng)新的空間的:一方面,保證比較好的兼容性,支持多種work load;另一方面,提供比較高的計算效率,在類似于tensor core上去做優(yōu)化。此外,單卡單機還是不夠,需要千卡集群、萬卡集群進(jìn)一步提升算力,這個時候?qū)τ诰W(wǎng)絡(luò)和基礎(chǔ)設(shè)施的要求其實也非常高了。
丁云帆指出,總結(jié)起來硬件集群算力三個維度,包括單芯片的算力以及通過chiplet提升單卡算力,單機到集群的算力?!拔覀?020年設(shè)計的第一代產(chǎn)品里就做了chiplet架構(gòu),國外巨頭在今年發(fā)布的產(chǎn)品如英偉達(dá)B100和英特爾Gaudi 3也采用了同樣的思路,他們用最先進(jìn)的制程,但也需要chiplet來突破摩爾定律限制來提升單卡算力?!?/p>
第二,軟件有效算力維度。有超大規(guī)模集群后,最終軟件是不是能夠把算力發(fā)揮出來呢?這個很重要,這個效率我總結(jié)為三個點:首先,軟硬結(jié)合的計算效率;其次,集群調(diào)度效率怎么樣;最后,出現(xiàn)故障時的處理效率怎么樣?!澳惚旧淼募赫{(diào)度效率怎么樣?給你用了之后是不是能把它用好?卡分配給你了,你也在用,但千卡集群、萬卡集群都有一個穩(wěn)定性的問題,無論是國產(chǎn)卡還是英偉達(dá)GPU,這個是大家逃避不過去的,故障率是相對比較高的。”丁云帆表示。
據(jù)他介紹,壁仞科技用三級的異步checkpoint技術(shù),結(jié)合GPU的顯存和CPU內(nèi)存,甚至是多節(jié)點內(nèi)存的備份系統(tǒng)去達(dá)到一個平衡,目前已能夠大幅降低故障恢復(fù)成本。
第三,異構(gòu)聚合算力維度。單一的集群在集群建設(shè)過程中,有各種各樣的歷史原因,包括剛建千卡集群時,集群的基礎(chǔ)設(shè)施擴容做不上去,后面就算是同一種英偉達(dá)的卡也是多個小的池子,現(xiàn)在可能隨著國產(chǎn)GPU的落地,這個問題可能會更嚴(yán)峻一點。