助力國(guó)產(chǎn)芯片突破FP8模型部署及DeepSeek部署成本及效率難題，清華團(tuán)隊(duì)開源大模型推理引擎“赤兔Chitu”

作者：愛集微 03-14 16:05

來源：中科創(chuàng)星 #赤兔引擎# #清程極智# #中科創(chuàng)星#

9058

14日，清華大學(xué)高性能計(jì)算研究所翟季冬教授團(tuán)隊(duì)與清華系科創(chuàng)企業(yè)清程極智聯(lián)合宣布，開源大模型推理引擎“赤兔Chitu”，該引擎首次實(shí)現(xiàn)在非英偉達(dá)Hopper架構(gòu)GPU及各類國(guó)產(chǎn)芯片上原生運(yùn)行FP8精度模型，為國(guó)產(chǎn)AI芯片的廣泛應(yīng)用和生態(tài)建設(shè)帶來了新的突破。

打破“硬件綁定”困境，F(xiàn)P8模型部署不再受限

DeepSeek的發(fā)展推動(dòng)了 FP8 精度模型成為行業(yè)主流，隨著DeepSeek的持續(xù)火熱，企業(yè)大模型私有化部署的需求也呈現(xiàn)井噴態(tài)勢(shì)。

然而，當(dāng)前全球領(lǐng)先的FP8模型長(zhǎng)期依賴英偉達(dá)H系列高端GPU，這使得國(guó)內(nèi)企業(yè)在部署大模型時(shí)受限于AI芯片的限制。一方面，英偉達(dá)H系列芯片的進(jìn)口受限，導(dǎo)致國(guó)內(nèi)企業(yè)難以獲取高性能硬件支持；另一方面，大多數(shù)國(guó)產(chǎn)芯片因不支持FP8數(shù)據(jù)類型，無法充分發(fā)揮新一代AI模型的性能，企業(yè)部署成本高昂。

為打破這一困境，清華大學(xué)與清程極智聯(lián)合開源的“赤兔”推理引擎應(yīng)運(yùn)而生。該引擎通過底層技術(shù)革新，首次實(shí)現(xiàn)了非H卡設(shè)備（包括英偉達(dá)Hopper架構(gòu)之前的GPU卡及各類國(guó)產(chǎn)卡）對(duì)原生FP8模型的高效部署，擺脫對(duì)特定硬件的依賴，極大地降低了企業(yè)部署AI模型的門檻和成本。

清華大學(xué)翟季冬教授強(qiáng)調(diào)，赤兔凝結(jié)了團(tuán)隊(duì)多年并行計(jì)算與編譯優(yōu)化技術(shù)積累，目標(biāo)是“彌合先進(jìn)模型與多樣化硬件之間的差距，讓國(guó)產(chǎn)算力真正‘跑起來’，為中國(guó)大模型產(chǎn)業(yè)落地提供關(guān)鍵支撐”。清程極智CEO湯雄超表示：“赤兔的定位是成為連接多元算力與大模型應(yīng)用的橋梁。我們不僅支持英偉達(dá)全系列GPU，還針對(duì)國(guó)產(chǎn)芯片深度優(yōu)化，未來將陸續(xù)開源適配版本?！?/p>

性能實(shí)測(cè)：GPU減半速度還提3倍

“赤兔”引擎在性能優(yōu)化和架構(gòu)適應(yīng)性方面展現(xiàn)了顯著優(yōu)勢(shì)。

在首期開源版本中，赤兔引擎部署DeepSeek-R1-671B滿血版時(shí)，在A800集群的測(cè)試中，相比部分國(guó)外開源框架，GPU使用量減少50%的情況下推理速度仍有3.15倍提速。這意味著企業(yè)可以用更少的硬件資源獲得更高的推理性能，極大降低了部署門檻和運(yùn)營(yíng)成本。

在幫助企業(yè)降本增效的同時(shí)，赤兔引擎的技術(shù)可實(shí)現(xiàn)模型效果不受損。這一成果源于團(tuán)隊(duì)對(duì)GeMM、MoE等核心算子的指令級(jí)優(yōu)化，直接處理FP8數(shù)據(jù)而非簡(jiǎn)單量化，確保模型精度無損。

目前，赤兔引擎目標(biāo)建立覆蓋從純CPU到大規(guī)模集群的全場(chǎng)景大模型部署需求，適配英偉達(dá)多款GPU及多款國(guó)產(chǎn)芯片。同時(shí)面對(duì)市場(chǎng)上不同的大模型算力優(yōu)化需求，赤兔支持低延遲、高吞吐、小顯存三方面優(yōu)化，用最低成本實(shí)現(xiàn)最高性能。”基于這樣的設(shè)計(jì)理念，集成赤兔引擎的大模型部署服務(wù)客戶覆蓋面非常廣泛。

直面大模型部署成本痛點(diǎn)，推動(dòng)AI普及

今年以來，隨著DeepSeek—R1、QwQ 等優(yōu)秀的國(guó)產(chǎn)開源大模型的不斷涌現(xiàn)，大模型私有化部署的需求越來越旺盛，但大模型部署和運(yùn)營(yíng)成本居高不下，因此顯著降低推理成本對(duì)推廣 AI 應(yīng)用至關(guān)重要。為此，赤兔引擎從底層設(shè)計(jì)上便將“算力效率”作為首要優(yōu)化目標(biāo)，力求以更低資源消耗實(shí)現(xiàn)更高性能輸出。

本次開源的版本特別聚焦于當(dāng)前市場(chǎng)最迫切的需求——將DeepSeek-R1 FP8精度模型無損且高效地部署在存量英偉達(dá)GPU上。團(tuán)隊(duì)表示，針對(duì)多款國(guó)產(chǎn)芯片特別優(yōu)化的版本也將陸續(xù)開源。這一突破不僅為企業(yè)提供了更高效、更靈活的AI部署解決方案，降低了大模型落地門檻，也為國(guó)產(chǎn)AI算力的發(fā)展帶來了新的契機(jī)。

此外，清程極智推出基于赤兔的“推理一體機(jī)”，提供開箱即用部署方案及專業(yè)運(yùn)維服務(wù)，進(jìn)一步簡(jiǎn)化企業(yè)AI落地流程。

開源共建：為國(guó)產(chǎn)芯片“搶時(shí)間”

清程極智CEO湯雄超表示：當(dāng)前國(guó)內(nèi)在推理引擎這一核心環(huán)節(jié)，仍缺乏生產(chǎn)級(jí)開源產(chǎn)品。開源“赤兔”引擎是助力國(guó)內(nèi)AI生態(tài)建設(shè)的重要一步。

為加速生態(tài)建設(shè)，赤兔團(tuán)隊(duì)與多家國(guó)產(chǎn)芯片廠商展開合作，開放代碼貢獻(xiàn)通道，縮短硬件適配周期。“開源不僅是技術(shù)共享，更是為國(guó)產(chǎn)芯片‘搶時(shí)間’，當(dāng)新模型或數(shù)據(jù)類型出現(xiàn)時(shí)，赤兔能助力國(guó)產(chǎn)芯片跟上國(guó)際節(jié)奏，縮小與國(guó)際先進(jìn)芯片之間的‘時(shí)間差’。”湯雄超表示。

隨著“赤兔”引擎的開源，“國(guó)產(chǎn)大模型+國(guó)產(chǎn)引擎+國(guó)產(chǎn)芯片”技術(shù)閉環(huán)正在加速成型，中國(guó)大模型產(chǎn)業(yè)從技術(shù)到生態(tài)的全面突破，已按下加速鍵?！盁o論用什么卡，赤兔都會(huì)是高性價(jià)比的選擇?！背嗤脠F(tuán)隊(duì)的這句話折射出國(guó)產(chǎn)AI基礎(chǔ)設(shè)施從追趕邁向引領(lǐng)的決心。