亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

來(lái)源:摩爾線程 #摩爾線程# #GPU#
2.9w

近日,摩爾線程正式開(kāi)源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過(guò)深度融合FP8混合訓(xùn)練策略和高性能算子庫(kù),這兩大框架在國(guó)產(chǎn)全功能GPU上實(shí)現(xiàn)了高效的混合并行訓(xùn)練和推理,顯著提升了訓(xùn)練效率與穩(wěn)定性。摩爾線程是國(guó)內(nèi)率先原生支持FP8計(jì)算精度的國(guó)產(chǎn)GPU企業(yè),此次開(kāi)源不僅為AI訓(xùn)練和推理提供了全新的國(guó)產(chǎn)化解決方案,更對(duì)推動(dòng)國(guó)產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用具有重要意義。

 MT-MegatronLM開(kāi)源地址:

https://github.com/MooreThreads/MT-MegatronLM

 MT-TransformerEngine開(kāi)源地址:

https://github.com/MooreThreads/MT-TransformerEngine

框架介紹

MT-MegatronLM是面向全功能GPU的開(kāi)源混合并行訓(xùn)練框架,支持dense模型、多模態(tài)模型及MoE(混合專(zhuān)家)模型的高效訓(xùn)練。該框架利用全功能GPU支持FP8混合精度策略、高性能算子庫(kù)muDNN與集合通信庫(kù)MCCL,可以顯著提升國(guó)產(chǎn)全功能GPU集群的算力利用率。

MT-TransformerEngine主要用于Transformer模型的高效訓(xùn)練與推理優(yōu)化,通過(guò)算子融合、并行加速策略等技術(shù),充分釋放摩爾線程全功能GPU高密度計(jì)算的潛力和memory bound算子的效率。

技術(shù)突破與優(yōu)勢(shì)

兩大框架的技術(shù)突破集中體現(xiàn)在硬件適配與算法創(chuàng)新的深度協(xié)同:

▽ 混合并行訓(xùn)練:支持Dense、多模態(tài)及MoE模型的混合并行訓(xùn)練,可靈活應(yīng)對(duì)不同模型架構(gòu)的復(fù)雜運(yùn)算場(chǎng)景;

▽ FP8混合訓(xùn)練策略:結(jié)合摩爾線程GPU原生支持的FP8混合精度訓(xùn)練策略,能夠有效提升訓(xùn)練效率;

▽ 高性能算子庫(kù):通過(guò)高性能算子庫(kù)muDNN與通信庫(kù)MCCL的深度集成,系統(tǒng)性優(yōu)化了計(jì)算密集型任務(wù)與多卡協(xié)同的通信開(kāi)銷(xiāo);同時(shí)結(jié)合摩爾線程開(kāi)源Simumax庫(kù),可自動(dòng)進(jìn)行并行策略搜索,并針對(duì)不同模型和加速環(huán)境spec最大化并行訓(xùn)練性能;

▽ 異常訓(xùn)練處理:框架內(nèi)置的rewind異?;謴?fù)機(jī)制,可自動(dòng)回滾至最近穩(wěn)定節(jié)點(diǎn)繼續(xù)訓(xùn)練,大幅提升大規(guī)模訓(xùn)練的穩(wěn)定性;

▽ 完整的兼容性:兩個(gè)框架兼容GPU主流生態(tài),既保障了現(xiàn)有生態(tài)的平滑遷移,也為開(kāi)發(fā)者構(gòu)建自有的AI技術(shù)棧提供了底層支撐。

 摩爾線程Simumax開(kāi)源地址:

https://github.com/MooreThreads/SimuMax

實(shí)際應(yīng)用效果

在實(shí)際應(yīng)用中,這兩個(gè)框架的充分結(jié)合已經(jīng)取得了顯著的成果。這些成果不僅驗(yàn)證了框架的技術(shù)成熟度,也為國(guó)產(chǎn)GPU生態(tài)的規(guī)?;瘧?yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。

▽ 高效訓(xùn)練:在全功能GPU集群上,Llama3 8B模型的訓(xùn)練任務(wù),可以利用FP8在loss幾乎無(wú)損的情況下MFU達(dá)到90%以上;(如下圖所示)

圖注:利用摩爾線程FP8混合精度加速技術(shù)在loss無(wú)損的情況下得到28%的加速

▽ 復(fù)現(xiàn)DeepSeek 滿血版訓(xùn)練:摩爾線程已深度集成并開(kāi)源對(duì)DeepSeek并行算法DualPipe的高效支持,MT-DualPipe可以完整接入MT-Megatron框架和MT-TransformerEngine框架,成功實(shí)現(xiàn)DeepSeek V3訓(xùn)練流程的完整復(fù)現(xiàn),支持MLA、MTP及多種專(zhuān)家平衡策略;

▽ 性能大幅優(yōu)化:通過(guò)多種Transformer算子融合技術(shù),顯著提升了內(nèi)存帶寬利用率,有效緩解memory bound瓶頸,進(jìn)一步釋放國(guó)產(chǎn)GPU的硬件潛力。

持續(xù)優(yōu)化與生態(tài)共建

為加速國(guó)產(chǎn)GPU生態(tài)發(fā)展與建設(shè),摩爾線程將持續(xù)優(yōu)化MT-MegatronLM與MT-TransformerEngine框架,并引入一系列創(chuàng)新功能:

▽ Dual Pipe/ZeroBubble并行策略:進(jìn)一步降低氣泡率,提升并行訓(xùn)練效率;

▽ 多種FP8優(yōu)化策略:獨(dú)創(chuàng)的FP8優(yōu)化策略,提高訓(xùn)練的性能和穩(wěn)定性;

▽ 異步checkpoint策略:提高訓(xùn)練過(guò)程中的容錯(cuò)能力和效率;

▽ 優(yōu)化后的重計(jì)算策略:減少計(jì)算和顯存開(kāi)銷(xiāo),提高訓(xùn)練速度;

▽ 容錯(cuò)訓(xùn)練策略:獨(dú)創(chuàng)的容錯(cuò)訓(xùn)練算法,增強(qiáng)訓(xùn)練過(guò)程中的容錯(cuò)能力;

▽ 集成摩爾線程FlashMLA和DeepGemm庫(kù):進(jìn)一步釋放摩爾線程GPU的算力和FP8計(jì)算能力,提升計(jì)算性能和效率。

摩爾線程始終致力于推動(dòng)開(kāi)源生態(tài)的發(fā)展,通過(guò)技術(shù)開(kāi)放與生態(tài)共建,加速國(guó)產(chǎn)全功能GPU在AI計(jì)算領(lǐng)域的規(guī)模化應(yīng)用,為更多用戶提供更智能、高效的解決方案。

責(zé)編: 愛(ài)集微
來(lái)源:摩爾線程 #摩爾線程# #GPU#
THE END
關(guān)閉
加載

PDF 加載中...

美性中文网中文字幕91| 久久久18禁一区二区网| 亚洲一区二区女同性恋免费看| 国产精品熟女一区二区三区久久夜| 美女的咪咪和骚逼| 操女人逼逼骚逼逼| 伊人久久亚洲婷婷综合久久| 中文字幕乱码人妻一区二区三区| 国产试看精品无码中| 黑丝美女被操哭边操边尿| 国产亚洲欧美中文日韩| 国产亚洲一区白丝在线观看| 操我骚逼抽插视频| 亚洲av伦理一区二区三区久久| 日本高清不卡一区二区三区| 色婷婷五月综合久久| 亚洲av午夜一区二区| 男女真人牲交高潮全过程| 老太太在丛林日老B| 日韩午夜资源在线观看| 国产试看精品无码中| 普通话大屌操小穴| 九九视频这里只有精品| 嗯嗯好硬好大啊老公| 亚洲成国产人片在线观看| 国产在线麻豆精品| 国产福利一区二区精品秒拍| 插欧美美女逼逼逼逼| 又爽又粗又大又长的爆草 | 日本不卡免费一区二区视频| 青娱乐欧美性爱视频| 看小伙草白女人比的黄片| 女人被躁到高潮嗷嗷叫小| 熟妇人妻无乱码中文字幕| 久久亚洲精品无码AV宋| 国产精品一区二区三区色噜噜| 大黑屌后入骚妇屁股| 久久久久久亚洲精品首页 | 日本欧美一区二区三区| 久久精品国产亚洲av伦理| 国产亚洲欧美日韩在线观看一区|