工業(yè)和信息化部高新技術(shù)司近日公布2024年未來產(chǎn)業(yè)創(chuàng)新發(fā)展優(yōu)秀典型案例申報成果,壁仞科技作為牽頭單位,聯(lián)合上海儀電、中興通訊申報的 “軟硬一體異構(gòu)協(xié)同的國產(chǎn)GPU智算集群解決方案”,成功入選工信部未來產(chǎn)業(yè)創(chuàng)新發(fā)展“標(biāo)志性產(chǎn)品”優(yōu)秀典型案例。壁仞科技是“未來信息”方向“標(biāo)志性產(chǎn)品”類別唯一芯片設(shè)計企業(yè)及上海市唯一上榜企業(yè),充分體現(xiàn)了壁仞科技在人工智能芯片和智算集群領(lǐng)域的技術(shù)創(chuàng)新和產(chǎn)品實力。
創(chuàng)新標(biāo)志性產(chǎn)品“超大規(guī)模新型智算中心”方向唯一上榜企業(yè)
為落實工業(yè)和信息化部等七部門《關(guān)于推動未來產(chǎn)業(yè)創(chuàng)新發(fā)展的實施意見》的部署要求,充分發(fā)揮標(biāo)桿和樣板的示范引領(lǐng)作用,加快推動標(biāo)志性產(chǎn)品打造、高水平產(chǎn)業(yè)主體培育和應(yīng)用場景建設(shè),工業(yè)和信息化部高新技術(shù)司組織開展了2024年未來產(chǎn)業(yè)創(chuàng)新發(fā)展優(yōu)秀典型案例征集工作。案例征集工作聚焦未來制造、未來信息、未來材料、未來能源、未來空間、未來健康等六大方向,面向全國征集遴選標(biāo)志性產(chǎn)品、領(lǐng)軍企業(yè)和典型應(yīng)用場景三類典型案例。其中,標(biāo)志性產(chǎn)品的定義為“代表未來產(chǎn)業(yè)發(fā)展方向,且已實現(xiàn)產(chǎn)業(yè)化,能切實體現(xiàn)前沿技術(shù)突破并具有良好應(yīng)用前景的產(chǎn)品”。在十大創(chuàng)新標(biāo)志性產(chǎn)品方向中,“超大規(guī)模新型智算中心”旨在加快突破GPU芯片、集群低時延互連網(wǎng)絡(luò)、異構(gòu)資源管理等技術(shù),建設(shè)超大規(guī)模智算中心,滿足大模型迭代訓(xùn)練和應(yīng)用推理需求。壁仞科技自主創(chuàng)新研發(fā)的“軟硬一體異構(gòu)協(xié)同的國產(chǎn)GPU智算集群解決方案”成為該方向唯一上榜產(chǎn)品。
工信部發(fā)布的創(chuàng)新標(biāo)志性產(chǎn)品十大方向
六項核心技術(shù)創(chuàng)新成果,突破大規(guī)模智算集群及異構(gòu)算力孤島難題
大模型參數(shù)從千億擴展到萬億,訓(xùn)練資源從千卡需要擴展到萬卡甚至十萬卡的集群。DeepSeek引爆了大模型的落地應(yīng)用,推理資源需求激增。但高端算力供應(yīng)緊張、國產(chǎn)芯片百花齊放、智算中心擴容混建,形成大量異構(gòu)算力孤島,智算集群的資源利用效率和靈活性存在很大挑戰(zhàn)。本案例基于壁仞科技國產(chǎn)高性能GPU打造了軟硬一體、全棧優(yōu)化、異構(gòu)協(xié)同、自主可控的智算集群解決方案,實現(xiàn)智算集群資源的高效利用及異構(gòu)協(xié)同,支持大模型快速發(fā)展。本案例堅持自主創(chuàng)新,整體方案覆蓋高性能集群、大模型訓(xùn)練一體平臺、加速庫、基礎(chǔ)框架、超大模型框架、算法/應(yīng)用等六個層次,取得六項業(yè)界首創(chuàng)成果:
1)業(yè)界首創(chuàng)利用Chiplet架構(gòu)實現(xiàn)大算力GPU;2)國內(nèi)第一次實現(xiàn)GPU跨節(jié)點光互連技術(shù)驗證并實現(xiàn)商用落地;3)業(yè)界首創(chuàng)大模型3D并行彈性訓(xùn)練,通過訓(xùn)推一體平臺實現(xiàn)集群高效調(diào)度利用;4)業(yè)界首創(chuàng)三級異步Checkpoint,實現(xiàn)低開銷、高可靠斷點續(xù)訓(xùn);5)業(yè)界首創(chuàng)異步Offload技術(shù),突破大模型訓(xùn)練的顯存瓶頸;6)業(yè)界首次支持4種及以上不同廠商不同型號的GPU混合訓(xùn)練同一個大模型,實現(xiàn)數(shù)千卡規(guī)?;煊?xùn),突破大模型異構(gòu)算力孤島難題。
商業(yè)化落地加速,技術(shù)迭代持續(xù)領(lǐng)跑
本案例方案已經(jīng)在多個大規(guī)模智算集群落地應(yīng)用,通過應(yīng)用落地和生態(tài)、標(biāo)準(zhǔn)建設(shè)持續(xù)打磨技術(shù),技術(shù)持續(xù)升級滿足客戶新興重要需求,形成良性循環(huán)。目前,壁仞科技壁礪?系列通用GPU產(chǎn)品已經(jīng)在中國電信落地千卡集群并開展商業(yè)化落地應(yīng)用,千卡集群、千億參數(shù)模型訓(xùn)練線性加速比超過95%,多次運行l(wèi)oss零誤差持續(xù)收斂,連續(xù)訓(xùn)練30天不中斷,連續(xù)訓(xùn)練5天無故障,千卡集群千億參數(shù)斷點續(xù)訓(xùn)時間小于5分鐘,滿足大模型訓(xùn)練的性能、精度、穩(wěn)定性要求。壁仞科技自主研發(fā)了BIRENLINK?高速互連技術(shù),原生支持跨節(jié)點的多機高速光互連通信,業(yè)內(nèi)首次完成技術(shù)可行性驗證,之后聯(lián)合上海儀電旗下上海智能算力科技有限公司設(shè)計并建設(shè)了首批國產(chǎn)大規(guī)模光互連集群,實現(xiàn)了國產(chǎn)光互連集群的技術(shù)突破。為解決大模型異構(gòu)算力孤島難題,壁仞科技自主研發(fā)了異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,業(yè)界首次支持四種異構(gòu)GPU混合訓(xùn)練同一個大模型,完成數(shù)千卡混訓(xùn)落地,實現(xiàn)了異構(gòu)算力的有效聚合,將逐步實現(xiàn)萬卡異構(gòu)集群?;贖GCT方案,壁仞已聯(lián)合中國移動發(fā)布“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng),聯(lián)合中國電信、中興通訊等發(fā)布“智算異構(gòu)四芯混訓(xùn)解決方案”,牽頭推動智算集群異構(gòu)混訓(xùn)標(biāo)準(zhǔn)建設(shè)工作,實現(xiàn)技術(shù)創(chuàng)新、落地應(yīng)用、標(biāo)準(zhǔn)制定的有機結(jié)合。
躋身新質(zhì)生產(chǎn)力標(biāo)桿,共建開放智算生態(tài)
憑借技術(shù)創(chuàng)新與商用落地能力,壁仞科技的超大規(guī)模智算集群解決方案近期榮登「2024新質(zhì)生產(chǎn)力產(chǎn)業(yè)實踐“人工智能”示范案例」TOP5。未來,壁仞科技將攜手合作伙伴,以基礎(chǔ)軟件棧為核心,構(gòu)建開放融合的智算生態(tài),推動國產(chǎn)算力從“可用”向“好用”躍遷,支撐更大參數(shù)規(guī)模模型、更大規(guī)模異構(gòu)集群及多業(yè)務(wù)場景融合,為中國算力強國戰(zhàn)略提供堅實底座。
评论
文明上网理性发言,请遵守新闻评论服务协议
登录参与评论
0/1000