亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

摩爾線程五大硬核實(shí)力打造“AI工廠”,為大模型訓(xùn)練提速

來(lái)源:愛(ài)集微 #摩爾線程# #AI#
1.5w

世界人工智能大會(huì)(WAIC 2025)前夕,摩爾線程以“算力進(jìn)化,精度革命”為主題舉辦技術(shù)分享會(huì),創(chuàng)新性提出“AI工廠”理念,旨在破局生成式AI爆發(fā)的大模型生產(chǎn)效率。

這意味著作為國(guó)內(nèi)領(lǐng)先的GPU廠商,摩爾線程從底層芯片架構(gòu)創(chuàng)新的單點(diǎn)性技術(shù)創(chuàng)新,向集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級(jí),也是應(yīng)對(duì)AI時(shí)代發(fā)展,模型參數(shù),算力需求進(jìn)一步挑戰(zhàn)的主動(dòng)布局。這種全方位的基礎(chǔ)設(shè)施變革,將推動(dòng)AI訓(xùn)練從千卡級(jí)向萬(wàn)卡級(jí)乃至十萬(wàn)卡級(jí)規(guī)模演進(jìn),以系統(tǒng)級(jí)工程實(shí)現(xiàn)生產(chǎn)力和創(chuàng)新效率的飛躍。

會(huì)上,摩爾線程CEO張建中圍繞“AI工廠”理念,以及摩爾線程在打造AI工廠方面的五大核心能力做了詳細(xì)介紹。

整體而言,在摩爾線程定義的以智能作為“產(chǎn)能”的“AI工廠”中,生產(chǎn)效率由五大核心要素決定成功與否:AI工廠生產(chǎn)效率=加速計(jì)算通用性*單芯片有效算力*單節(jié)點(diǎn)效率*集群效率*集群穩(wěn)定性,每一個(gè)環(huán)節(jié)都要求做到極致。

核心技術(shù)一:全功能全精度,實(shí)現(xiàn)加速計(jì)算通用性

加速計(jì)算芯片本身的強(qiáng)大通用性,是打造“AI工廠”的核心基石。

這要求單芯片能夠覆蓋多場(chǎng)景,才能支持多樣化的模型訓(xùn)練。而這也是摩爾線程從成立之初以來(lái)的產(chǎn)品定位“全功能GPU”,在創(chuàng)新MUSA架構(gòu)的支持下,摩爾線程單GPU芯片可以同時(shí)支持AI計(jì)算加速、圖形渲染、是物理仿真和科學(xué)計(jì)算、超高清視頻編解碼的技術(shù)能力。

此外,精度完整性也是衡量全功能GPU通用計(jì)算能力的核心指標(biāo)。在計(jì)算精度方面,其支持從FP64至INT8的完整精度譜系,是國(guó)內(nèi)極少數(shù)具備FP8大模型訓(xùn)練平臺(tái)的廠商,通過(guò)FP8混合精度技術(shù),有效提升訓(xùn)推一體能力,在主流前沿大模型訓(xùn)練中實(shí)現(xiàn)20%~30%的性能躍升。

核心技術(shù)二:自研MUSA架構(gòu),提升芯片有效算力

強(qiáng)大的芯片有效算力是作為“AI工廠”的核心競(jìng)爭(zhēng)力。而作為GPU的 “靈魂”,創(chuàng)新的架構(gòu)設(shè)計(jì)往往決定了GPU的計(jì)算能力、能效比、適用場(chǎng)景乃至技術(shù)上限。

摩爾線程自研的MUSA架構(gòu),從設(shè)計(jì)之初,便完整考慮到面向未來(lái)多樣計(jì)算場(chǎng)景的需求,通過(guò)多引擎可配置統(tǒng)一系統(tǒng)架構(gòu),實(shí)現(xiàn)一個(gè)架構(gòu)在不同領(lǐng)域的應(yīng)用,統(tǒng)一編程接口,并著力在計(jì)算、內(nèi)存、通信三個(gè)層面實(shí)現(xiàn)突破,顯著提升單GPU運(yùn)算效率。

計(jì)算、通信、存儲(chǔ)、指令集之間的相互交接、相互協(xié)調(diào)、相互調(diào)度的一系列功能需求,要在頂層設(shè)計(jì)當(dāng)中完整地考慮進(jìn)去。

摩爾線程采用創(chuàng)新的多引擎、可伸縮GPU架構(gòu),通過(guò)硬件資源池化及動(dòng)態(tài)資源調(diào)度技術(shù),構(gòu)建了全局共享的計(jì)算、內(nèi)存與通信資源池。這一設(shè)計(jì)不僅突破了傳統(tǒng)GPU功能單一的限制,還在保障通用性的同時(shí)顯著提升了資源利用率。其參數(shù)化配置可伸縮架構(gòu)允許面向目標(biāo)市場(chǎng)快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開(kāi)發(fā)成本。

這樣的架構(gòu)能便于開(kāi)發(fā)者和用戶在底層直接調(diào)用相關(guān)引擎,將各種不同的硬件減速流水線pipeline起來(lái),而所有結(jié)果共享一個(gè)內(nèi)存和資源池,這是最典型的數(shù)據(jù)驅(qū)動(dòng)、引擎支持和引擎計(jì)算的統(tǒng)一系統(tǒng)架構(gòu),可以讓工作效率更高。

在性能方面,AI加速系統(tǒng)如何讓性能發(fā)揮得更好,需要有功能定制的核心計(jì)算引擎。摩爾線程通過(guò)兩套自研的AI計(jì)算加速系統(tǒng):張量計(jì)算引擎(TCE)、張量訪存引擎(TME),實(shí)現(xiàn)對(duì)算、存環(huán)節(jié)的針對(duì)性管理和調(diào)度,更好地發(fā)揮效率。此外,為了使眾多工作、步驟、引擎保持同步不亂、有條不紊,摩爾線程自主設(shè)計(jì)了引擎異步流水(ATB)。可以把上述工作內(nèi)容Pipeline起來(lái),且不需要等待。

在計(jì)算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計(jì)算。作為國(guó)內(nèi)首批實(shí)現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術(shù)通過(guò)快速格式轉(zhuǎn)換、動(dòng)態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計(jì),在保證計(jì)算精度的同時(shí),將Transformer計(jì)算性能提升約30%。

摩爾線程透露,設(shè)計(jì)FP8的時(shí)候,摩爾線程研發(fā)團(tuán)隊(duì)特別設(shè)計(jì)了一個(gè)FP8的Transformer引擎,專門(mén)用于FP8的加速計(jì)算。Transformer引擎是摩爾線程平湖架構(gòu)(第四代GPU架構(gòu))中一個(gè)核心科技,從而帶來(lái)計(jì)算性能的顯著提升。

在通信能力方面,摩爾線程獨(dú)創(chuàng)ACE(異步通信引擎),減少了15%的計(jì)算資源損耗,MTLink2.0互聯(lián)技術(shù)提供了高出國(guó)內(nèi)行業(yè)平均水平60%的帶寬。在不同數(shù)據(jù)包的傳送上,Scale-Up效率可以最高提升30%,平均在15%以上。這些功能可以讓GPU之間不同的復(fù)雜拓?fù)浣Y(jié)構(gòu)不受計(jì)算環(huán)境的影響,可以實(shí)現(xiàn)卡間高效互聯(lián)通信。

在存儲(chǔ)方面,MUSA存儲(chǔ)子系統(tǒng)實(shí)現(xiàn)了多維度的升級(jí),通過(guò)多精度近存規(guī)約引擎、低延遲Scale-Up內(nèi)存順序模型、通算并行資源隔離等技術(shù),實(shí)現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。

核心技術(shù)三:MUSA全棧系統(tǒng)軟件,提升單節(jié)點(diǎn)計(jì)算效率

對(duì)GPU而言,單節(jié)點(diǎn)計(jì)算效率不僅依賴硬件算力,更取決于軟件能否讓硬件 “跑滿”—— 避免算力閑置、數(shù)據(jù)傳輸阻塞、算子低效等問(wèn)題。而MUSA全棧系統(tǒng)軟件的價(jià)值,正是通過(guò)全鏈路優(yōu)化,通過(guò)消除各環(huán)節(jié)的性能損耗、最大化硬件潛力,最終實(shí)現(xiàn)單節(jié)點(diǎn)效率的躍升。

主要包括幾點(diǎn)核心要素。

一是GPU驅(qū)動(dòng)任務(wù)調(diào)度優(yōu)化。Kernel Launch(核函數(shù)啟動(dòng))是GPU/加速器計(jì)算中的核心調(diào)度機(jī)制,是指將計(jì)算任務(wù)從CPU主機(jī)傳輸?shù)紾PU設(shè)備并執(zhí)行的過(guò)程,本質(zhì)是鏈接軟件指令與硬件算力的橋梁。傳統(tǒng)Kernel Lauch延遲較高,導(dǎo)致GPU在任務(wù)空間頻繁空閑,形成計(jì)算空洞。而GPU空閑時(shí),算力資源浪費(fèi),硬件利用率不足。

而摩爾線程的GPU驅(qū)動(dòng)任務(wù)調(diào)度優(yōu)化能夠使得Kernel Launch時(shí)間縮短50%。支持千次計(jì)算指令單次并行下發(fā)以及55%的延遲減少。

二是打造極致性能算子庫(kù)。GEMM算子算力利用率達(dá)98%,F(xiàn)lash Attention 算子算力利用率突破95%。

三是通信效能躍升。通過(guò)MCCL通信庫(kù)實(shí)現(xiàn)RDMA網(wǎng)絡(luò)97%帶寬利用率;基于異步通信引擎優(yōu)化計(jì)算通信并行,大模型訓(xùn)練集群整體性能提升10%。

四是低精度計(jì)算效率革新。實(shí)現(xiàn)對(duì)于FP8的計(jì)算性能優(yōu)化,大幅提升訓(xùn)練效能。FP8 GEMM利用率處于行業(yè)領(lǐng)先水平。此外,行業(yè)首創(chuàng)細(xì)粒度重計(jì)算,采用創(chuàng)新的Recompute高效算法,計(jì)算開(kāi)銷(xiāo)減少4倍,可以使得訓(xùn)練精度能保持得更高,累計(jì)誤差更小。

五是開(kāi)發(fā)生態(tài)完善。Triton-MUSA編譯器對(duì)于vLLM、SGLang等,已實(shí)現(xiàn)開(kāi)源Triton算子100%覆蓋。FlagGems算子庫(kù)支持160+熱點(diǎn)算子,支持率超過(guò)90%。MCC自研編譯器支持torch compile,計(jì)算圖優(yōu)化加速比達(dá)1.5倍。MUTLASS高性能線性代數(shù)模板庫(kù)兼容支持CUTLASS/CuTe3.6.0。多精度支持TF32、FP16、BF16、INT8等主流AI計(jì)算?;贛UTLASS的GEMM性能可達(dá)muDNN手寫(xiě)匯編性。

此外,為了服務(wù)廣大開(kāi)發(fā)者,摩爾線程還打造了完整的軟件開(kāi)發(fā)套件,對(duì)應(yīng)Torch Profiler,監(jiān)控、管理,performance tuning等一系列工具。同時(shí),摩爾線程也計(jì)劃開(kāi)放很多套件給所有開(kāi)發(fā)者,同時(shí)也愿意傾聽(tīng)開(kāi)發(fā)者的意見(jiàn)。值得一提的是,今年10月,摩爾線程將舉辦首屆MUSA開(kāi)發(fā)者大會(huì)。

核心技術(shù)四:自研KUAE大規(guī)模集群,優(yōu)化集群效率

當(dāng)單節(jié)點(diǎn)效率達(dá)到新高度,如何實(shí)現(xiàn)大規(guī)模集群的高效協(xié)作成為新的挑戰(zhàn)??涠穑↘UAE)是摩爾線程自研的計(jì)算集群,其中包括一系列的計(jì)算集群、軟件平臺(tái)、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護(hù)和服務(wù)等流程。

在提升單節(jié)點(diǎn)計(jì)算效率的基礎(chǔ)上,摩爾線程自研KUAE計(jì)算集群通過(guò)5D大規(guī)模分布式并行計(jì)算技術(shù),實(shí)現(xiàn)上千節(jié)點(diǎn)的高效協(xié)作。

在性能仿真與優(yōu)化方面,自主研發(fā)的Simumax工具面向超大規(guī)模集群自動(dòng)搜索最優(yōu)并行策略,可以實(shí)現(xiàn)集群訓(xùn)練性能的最優(yōu)化。通過(guò)精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。

針對(duì)大模型穩(wěn)定性難題,摩爾線程通過(guò)創(chuàng)新CheckPoint加速方案利用RDMA技術(shù),將百GB級(jí)備份恢復(fù)時(shí)間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。

摩爾線程表示,夸娥(KUAE)的設(shè)計(jì)理念,首先要滿足應(yīng)用中的多方面要求,比如做并行處理,不光是做一個(gè)DP(數(shù)據(jù)并行)、PP(流水線并行)、EP(專家并行),幾乎所有不同的并行策略和方法都要支持,而且效率要做到最高。第二,秉持端到端的模型訓(xùn)練理念。模型訓(xùn)練之前數(shù)據(jù)要處理、預(yù)訓(xùn)練、后訓(xùn)練、模型評(píng)估等等,提供從數(shù)據(jù)處理到模型部署的一站式服務(wù)。

基于平湖架構(gòu)KUAE2智算集群,無(wú)論千卡或更大規(guī)模,摩爾線程正在提升其性能,并且MFU已達(dá)到行業(yè)領(lǐng)先水平。

核心技術(shù)五:零中斷容錯(cuò)技術(shù),提升集群的穩(wěn)定性和可靠性

摩爾線程提出的AI工廠方案:從單芯片算力、效率,再到單節(jié)點(diǎn)和集群效率,彼此之間是相乘的關(guān)系,只有每一個(gè)環(huán)節(jié)都做到極致,才能最大限度地發(fā)揮能力,而穩(wěn)定性和可靠性是決定集群最后成敗的關(guān)鍵。特別在萬(wàn)卡級(jí)AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會(huì)嚴(yán)重浪費(fèi)算力。

而在提升集群穩(wěn)定性方面,摩爾線程創(chuàng)新推出零中斷容錯(cuò)技術(shù),故障發(fā)生時(shí)僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無(wú)縫接入,全程無(wú)中斷。這一方案使KUAE集群有效訓(xùn)練時(shí)間占比超99%,大幅降低恢復(fù)開(kāi)銷(xiāo)。

在可靠性方面,摩爾線程通過(guò)多維度訓(xùn)練洞察方案,實(shí)現(xiàn)動(dòng)態(tài)監(jiān)測(cè)與智能診斷,解決訓(xùn)練中的慢節(jié)點(diǎn)致命短板,可以“看得見(jiàn)”每一片GPU從而實(shí)施精確管理,該方案使得慢節(jié)點(diǎn)、Hang等異常處理效率提升50%。

同時(shí),為保證集群在訓(xùn)練起步階段的成功率,摩爾線程的可靠性方案還結(jié)合了集群巡檢與起飛檢查,包含一系列自動(dòng)化工具使其自動(dòng)調(diào)度,優(yōu)化管理效率,使得訓(xùn)練成功率以及速度提高10%。

從訓(xùn)練到驗(yàn)證:構(gòu)建完整閉環(huán)

完善的“AI工廠”不僅需要高效訓(xùn)練大模型,還需具備推理驗(yàn)證能力,從而構(gòu)建起完整閉環(huán)。

在推理驗(yàn)證方面,摩爾線程開(kāi)發(fā)了相應(yīng)工具方案,覆蓋LLM、視覺(jué)、生成類(lèi)模型等全流程推理解決方案。

一是MT Transformer自研推理引擎,面向LLM實(shí)現(xiàn)極致優(yōu)化。二是TensorX自研推理引擎,面向生成類(lèi)和視覺(jué)類(lèi)。三是vLLM-MUSA,在NTT和DirectX不支持的情況下,用戶可以使用vLLM,vLLM-MUSA能夠達(dá)到推理引擎的最高性能的80%,可以讓很多用戶更快速地實(shí)現(xiàn)適配。

經(jīng)過(guò)測(cè)試,摩爾線程最新AI旗艦產(chǎn)品MTT S5000針對(duì)DeepSeek R1滿血版大語(yǔ)言模型的推理速度,達(dá)到100tokens/s,在同國(guó)際主流GPU和其他國(guó)產(chǎn)GPU的比較中,推理處于行業(yè)領(lǐng)先。

結(jié)語(yǔ)

此次摩爾線程技術(shù)分享會(huì)上呈現(xiàn)的,是以 AI 工廠為核心載體,成功搭建起貫穿 “訓(xùn)練 - 推理 - 部署” 全流程的高效體系,這不僅是其自身技術(shù)實(shí)力的體現(xiàn),更標(biāo)志著國(guó)產(chǎn)計(jì)算基礎(chǔ)設(shè)施在支撐 AGI 時(shí)代規(guī)模化、高效率、高可靠模型生產(chǎn)方面,邁出了關(guān)鍵且堅(jiān)實(shí)的一步。

從圖形渲染,到AI 算力引擎,摩爾線程的全功能 GPU 始終走在加速計(jì)算革新的前沿。以 “KUAE+MUSA” 構(gòu)建的智算業(yè)務(wù)核心為驅(qū)動(dòng)力,摩爾線程正不斷拓展其影響力,加速為千行百業(yè)注入 AI 動(dòng)能。未來(lái),在物理仿真、AIGC、科學(xué)計(jì)算、具身智能、智能體、醫(yī)療影像分析、工業(yè)大模型等關(guān)鍵領(lǐng)域,由全功能 GPU 驅(qū)動(dòng)的 AI 技術(shù)有望將在摩爾線程的推動(dòng)下,實(shí)現(xiàn)更廣泛的應(yīng)用與深度部署,為國(guó)產(chǎn)計(jì)算力量的崛起和 AI 產(chǎn)業(yè)的蓬勃發(fā)展書(shū)寫(xiě)新的篇章。

責(zé)編: 愛(ài)集微
來(lái)源:愛(ài)集微 #摩爾線程# #AI#
THE END

*此內(nèi)容為集微網(wǎng)原創(chuàng),著作權(quán)歸集微網(wǎng)所有,愛(ài)集微,愛(ài)原創(chuàng)

張軼群

微信:zyqjordan23

郵箱:zhangyq@ijiwei.com

集微網(wǎng)記者,關(guān)注IC產(chǎn)業(yè),深度報(bào)道、企業(yè)報(bào)道


1838文章總數(shù)
536.6w總瀏覽量
最新資訊
關(guān)閉
加載

PDF 加載中...