我們正處于人工智能技術(shù)大爆發(fā)的時(shí)代,各類大模型的規(guī)模和能力在快速迭代增強(qiáng),基于這些模型的新AI工具和應(yīng)用正在快速涌現(xiàn)。隨著AI工具和應(yīng)用在工業(yè)界的廣泛使用,生產(chǎn)效率得到了極大的提升,業(yè)務(wù)創(chuàng)新正變得比以往任何時(shí)候都要便捷和便宜。以往需要數(shù)百人才能完成的創(chuàng)新產(chǎn)品,現(xiàn)在可能只需要三四個(gè)人就能夠完成開(kāi)發(fā)、上線、運(yùn)營(yíng)。這是人工智能時(shí)代帶來(lái)的紅利,同時(shí)也是對(duì)人工智能基礎(chǔ)設(shè)施的巨大挑戰(zhàn)?,F(xiàn)在比以往任何時(shí)候都需要更大的AI算力和更穩(wěn)定可靠的AI基礎(chǔ)設(shè)施。
寒武紀(jì)的使命是為客戶創(chuàng)造價(jià)值,成為持續(xù)創(chuàng)新的智能時(shí)代領(lǐng)導(dǎo)者。要達(dá)成這一目標(biāo),芯片和硬件是基礎(chǔ),軟件則是釋放芯片和硬件潛能、實(shí)現(xiàn)價(jià)值落地的核心驅(qū)動(dòng)力。自成立以來(lái),寒武紀(jì)在芯片領(lǐng)域持續(xù)創(chuàng)新和技術(shù)攻關(guān),累計(jì)研發(fā)了五代智能處理器、九顆智能芯片和基礎(chǔ)軟件平臺(tái),為數(shù)萬(wàn)臺(tái)云服務(wù)器提供智能算力,為國(guó)內(nèi)相關(guān)龍頭企業(yè)提供芯片核心器件和軟件棧。為了充分釋放和發(fā)揮芯片的強(qiáng)大性能,讓用戶將芯片高效應(yīng)用于大模型推理和訓(xùn)練、大規(guī)模搜索推薦的推理與訓(xùn)練、文生視覺(jué)推理和訓(xùn)練等各類人工智能場(chǎng)景,寒武紀(jì)以芯片為基礎(chǔ),以軟件為核心紐帶,交付了一整套易用、好用的人工智能軟硬件協(xié)同系統(tǒng)。軟件是和用戶交流的第一界面,軟件系統(tǒng)決定了用戶的體驗(yàn)。寒武紀(jì)通過(guò)系統(tǒng)軟件、編譯器、算子庫(kù)、分布式通信庫(kù)、框架、解決方案及配套工具等構(gòu)建了一套幫助用戶實(shí)現(xiàn)應(yīng)用快速遷移、高效部署的軟件系統(tǒng)。加入軟件團(tuán)隊(duì),你將能夠深入硬件底層架構(gòu),參與軟硬協(xié)同設(shè)計(jì),掌握從芯片到算法、軟件、解決方案的全棧技能!
寒武紀(jì)期待同學(xué)們的加入,共同將軟件工作置于戰(zhàn)略核心位置,攻堅(jiān)構(gòu)建先進(jìn)的人工智能軟硬件系統(tǒng),打造具備極致性能、高可靠性和高易用性的人工智能軟件棧,為工業(yè)界提供普惠易用的高性能人工智能基礎(chǔ)設(shè)施,以軟件的創(chuàng)新突破驅(qū)動(dòng)硬件價(jià)值最大化,為中國(guó)人工智能生態(tài)的蓬勃發(fā)展注入核心動(dòng)力。
一高易用性
01深度學(xué)習(xí)框架及生態(tài)組件開(kāi)發(fā)團(tuán)隊(duì)
我們專注于深度學(xué)習(xí)框架(PyTorch、TensorFlow)及生態(tài)組件(vLLM、SGlang、Megatron-lm、Transformer-Engine、Flash-attention、DeepSpeed、Diffusers、comfyui 等)的研發(fā)與優(yōu)化。
在用戶體驗(yàn)層面,我們致力于與社區(qū)開(kāi)源框架和組件保持高度兼容,讓用戶的業(yè)務(wù)模型代碼能夠低成本、無(wú)感知地遷移到不同硬件平臺(tái),復(fù)用已有的調(diào)試與優(yōu)化經(jīng)驗(yàn)。
在內(nèi)部技術(shù)側(cè),我們肩負(fù)著將自研 AI 加速板卡的算力充分釋放到極致的使命:
打造高效的框架適配與優(yōu)化方案,讓硬件潛能百分百轉(zhuǎn)化為模型的性能提升;
持續(xù)優(yōu)化推理與訓(xùn)練全鏈路,從單卡算子調(diào)優(yōu)到大規(guī)模分布式調(diào)度,覆蓋毫秒級(jí)極致延遲、極限吞吐以及萬(wàn)卡級(jí)穩(wěn)定訓(xùn)練等挑戰(zhàn)場(chǎng)景;
快速跟進(jìn)社區(qū)版本演進(jìn),做到天級(jí)別模型適配、周級(jí)別框架同步發(fā)版。
加入框架團(tuán)隊(duì),你將有機(jī)會(huì):
深入?yún)⑴c AI 框架與生態(tài)的研發(fā),系統(tǒng)掌握深度學(xué)習(xí)框架的原理與運(yùn)行機(jī)制,第一時(shí)間實(shí)現(xiàn)社區(qū)最新特性;
參與核心性能優(yōu)化與底層硬件適配,讓海量模型在自研硬件平臺(tái)上高效運(yùn)行;
與全球頂尖開(kāi)源社區(qū)、科研機(jī)構(gòu)和產(chǎn)業(yè)團(tuán)隊(duì)協(xié)作,共同推動(dòng) AI 計(jì)算生態(tài)發(fā)展;
積累推理與訓(xùn)練的實(shí)戰(zhàn)經(jīng)驗(yàn),在真實(shí)業(yè)務(wù)場(chǎng)景中磨煉技術(shù)能力;
主導(dǎo)或參與關(guān)鍵開(kāi)源貢獻(xiàn),讓你的技術(shù)成果被全球開(kāi)發(fā)者使用與認(rèn)可。
02編譯器團(tuán)隊(duì)
編譯器團(tuán)隊(duì)負(fù)責(zé)工具鏈的開(kāi)發(fā),包括各類編譯器,鏈接器,匯編器,調(diào)試器,性能分析工具、Sanitizer等組件。
加入編譯器團(tuán)隊(duì),你可以學(xué)習(xí)到業(yè)界領(lǐng)先的編譯器技術(shù),基于MLIR/LLVM技術(shù)打造最前沿的AI芯片編譯器工具鏈。在這里,你可以與頂級(jí)編譯器專家一起,基于MLIR開(kāi)發(fā)完全兼容OpenAI-Triton語(yǔ)言規(guī)范的編譯器,通過(guò)兼容社區(qū)開(kāi)發(fā)的Triton算子,顯著降低算子開(kāi)發(fā)的技術(shù)門(mén)檻。在這里,你也可以基于Clang/LLVM,構(gòu)建面向MLU的BANG C編程語(yǔ)言和工具鏈,持續(xù)挖掘硬件的極致性能。在這里,你可以與算法和硬件團(tuán)隊(duì)密切協(xié)作,通過(guò)分析典型場(chǎng)景的功能和性能需求,持續(xù)優(yōu)化MLU硬件的性能和易用性。
03寒武紀(jì)智能體開(kāi)發(fā)團(tuán)隊(duì)
寒武紀(jì)智能體團(tuán)隊(duì)開(kāi)發(fā)基于Deepseek模型的Agent,融合了寒武紀(jì)軟件知識(shí)庫(kù)和BangC以及Triton的算子開(kāi)發(fā)教程,能夠回答用戶關(guān)于寒武紀(jì)軟件棧的一般問(wèn)題,根據(jù)用戶的提示生成Triton和BangC算子,輔助用戶進(jìn)行算子開(kāi)發(fā),提升用戶的開(kāi)發(fā)效率。
加入智能體團(tuán)隊(duì),你可以快速了解如何利用最新最強(qiáng)大的開(kāi)源模型構(gòu)建智能體,如何利用智能體服務(wù)于我們的客戶去解決最迫切和最困難的自動(dòng)算子生成任務(wù),如何基于寒武紀(jì)的硬件部署高效的推理引擎服務(wù)用戶。
高易用性的工作貫穿在所有組件中,在工作中,基于自身研發(fā)的經(jīng)驗(yàn),和用戶的反饋,我們會(huì)持續(xù)不斷的提升易用性,將困難和復(fù)雜留在內(nèi)部解決,將簡(jiǎn)單易用的借口提供給用戶。
加入寒武紀(jì),無(wú)論處于任何組,你都可以積極的發(fā)掘進(jìn)一步提升易用性的機(jī)會(huì)。
二極致性能
01計(jì)算庫(kù)團(tuán)隊(duì)
寒武紀(jì)計(jì)算庫(kù)團(tuán)隊(duì),面向大語(yǔ)言模型、圖像/視頻生成和搜索推薦等業(yè)務(wù)場(chǎng)景,使用匯編指令、BangC語(yǔ)言、Triton語(yǔ)言和模板庫(kù),在寒武紀(jì)智能計(jì)算系統(tǒng)上開(kāi)發(fā)高性能算子。計(jì)算庫(kù)團(tuán)隊(duì)與芯片架構(gòu)、編譯器、通信庫(kù)、框架團(tuán)隊(duì)無(wú)縫協(xié)作,軟硬件協(xié)同優(yōu)化,充分挖掘寒武紀(jì)智能計(jì)算系統(tǒng)的潛力,打造業(yè)界領(lǐng)先的穩(wěn)定高效的算子庫(kù)。
加入計(jì)算庫(kù)團(tuán)隊(duì),你可以接觸到業(yè)界最前沿的人工智能算法,在業(yè)界領(lǐng)先的智能芯片架構(gòu)上做前沿算法的計(jì)算優(yōu)化,探索提升智能計(jì)算系統(tǒng)效率的原創(chuàng)性軟硬件方法,鑄牢超大規(guī)模智能計(jì)算集群的軟件基礎(chǔ),為打造自主可控的人工智能軟硬件生態(tài)貢獻(xiàn)自己的力量。
02分布式團(tuán)隊(duì)
寒武紀(jì)分布式團(tuán)隊(duì),依托寒武紀(jì)領(lǐng)先的通信加速底層架構(gòu),充分發(fā)揮底層潛力,在微秒級(jí)優(yōu)化通信延遲,與編譯器和架構(gòu)團(tuán)隊(duì)緊密合作,在指令層級(jí)優(yōu)化代碼,精益求精,打造極致低時(shí)延和高帶寬利用率的通信庫(kù),服務(wù)于大規(guī)模分布式訓(xùn)練和分布式推理場(chǎng)景,為業(yè)務(wù)取得極致性能打下基礎(chǔ)。
加入分布式團(tuán)隊(duì),你可以接觸到大規(guī)模AI集群網(wǎng)絡(luò)技術(shù),構(gòu)建高性能、高可靠、靈活易用的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,共同探索前沿的軟硬件協(xié)同設(shè)計(jì)方案,實(shí)現(xiàn)面向加速器的遠(yuǎn)程直接內(nèi)存訪問(wèn)、在網(wǎng)計(jì)算、端網(wǎng)協(xié)同等技術(shù),面向推理/訓(xùn)練場(chǎng)景的低延遲和高帶寬優(yōu)化技術(shù)、通算融合算子開(kāi)發(fā),與團(tuán)隊(duì)一起打造AI訓(xùn)練/推理領(lǐng)域的通信解決方案。
03推理與訓(xùn)練解決方案團(tuán)隊(duì)
推理與訓(xùn)練解決方案團(tuán)隊(duì)會(huì)聯(lián)合分布式團(tuán)隊(duì)和算子團(tuán)隊(duì)共同挑戰(zhàn)分布式系統(tǒng)的效率極限,例如在大EP并行方向上如何同時(shí)取得極低時(shí)延和高帶寬,在大模型訓(xùn)練和推理中如何利用通算并行隱藏通信開(kāi)銷,在實(shí)際業(yè)務(wù)部署中幫助用戶的業(yè)務(wù)達(dá)成業(yè)界領(lǐng)先的計(jì)算效率。
加入推理解決方案團(tuán)隊(duì),你可以和我們一起在開(kāi)源大模型推理引擎vLLM上部署DeepSeek/Qwen3/Kimi K2等主流的大語(yǔ)言模型,探索并落地如 PD 分離、AFD分離、大規(guī)模專家并行、通信計(jì)算并行等業(yè)界前沿的分布式推理性能優(yōu)化技術(shù),也可以和我們一起在 Diffusers框架上部署和優(yōu)化業(yè)界主流的圖像生成模型(如 Flux)、視頻生成模型(如 Wan2.2),在這里,你可以將推理框架優(yōu)化、算法優(yōu)化、算子優(yōu)化、分布式通信優(yōu)化等技術(shù)綜合應(yīng)用到工程實(shí)踐中,和我們一起打造人工智能推理領(lǐng)域最具競(jìng)爭(zhēng)力的軟件解決方案。
加入訓(xùn)練解決方案團(tuán)隊(duì),你將深度參與大模型訓(xùn)練、搜廣推優(yōu)化及多模態(tài)訓(xùn)練等前沿領(lǐng)域的解決方案研發(fā),參與DeepSeek/Qwen/OpenSora等頂尖模型的訓(xùn)練優(yōu)化工作,參與工業(yè)級(jí)的強(qiáng)化學(xué)習(xí)框架(如 Verl)與寒武紀(jì)硬件的協(xié)同開(kāi)發(fā),通過(guò)融合精度分析、通信并行優(yōu)化、分布式策略搜索等核心技術(shù),構(gòu)建可支撐萬(wàn)卡集群的高效訓(xùn)練體系。在這里,你的工程實(shí)踐將直接推動(dòng)大規(guī)模AI訓(xùn)練業(yè)務(wù)的規(guī)?;涞亍?/p>
加入驅(qū)動(dòng)團(tuán)隊(duì),你可以在底層軟件層面貢獻(xiàn)力量來(lái)實(shí)現(xiàn)高性能的智能計(jì)算系統(tǒng),例如在ns級(jí)別去優(yōu)化算子下發(fā)性能到極致,達(dá)到與主流國(guó)際競(jìng)品相當(dāng)甚至更優(yōu)的性能,在此過(guò)程中我們可以一同研究不同CPU架構(gòu)的指令性能,深度分析不同處理器體系下訪存特性,實(shí)現(xiàn)極致性能的內(nèi)核代碼。此外我們還可以創(chuàng)新Graph任務(wù)下發(fā)方式,在海量算子的批處理效率上有成倍的性能提升,在此過(guò)中我們可以一起完成全面的競(jìng)品性能分析,尋找競(jìng)品設(shè)計(jì)的亮點(diǎn)以及不足,設(shè)計(jì)出更加靈活開(kāi)銷更低的調(diào)度算法。與此同時(shí),作為和寒武紀(jì)芯片接觸最密切的團(tuán)隊(duì),我們可以通過(guò)和芯片探討行業(yè)未來(lái)趨勢(shì),共同完成新一代的SoC設(shè)計(jì)和驗(yàn)證,例如通過(guò)分解、下沉、抽象等手段,將通信計(jì)算融合場(chǎng)景的瓶頸點(diǎn)轉(zhuǎn)化為各個(gè)芯片模塊設(shè)計(jì)需求和指標(biāo),并在仿真平臺(tái)評(píng)估新模塊所能達(dá)到的效果,在最終產(chǎn)品上體現(xiàn)出革命性的能力提升。
04工具團(tuán)隊(duì)
系統(tǒng)工具,集群工具,分布式和框架團(tuán)隊(duì)共同提供高效的離線在線數(shù)據(jù)捕獲工具分析工具,能提供端到端的框架級(jí)別的調(diào)優(yōu)支持,也能提供單算子視角的算子優(yōu)化支持,能支持單機(jī)場(chǎng)景,也能夠支持大規(guī)模分布式場(chǎng)景。在各場(chǎng)景下能快速定位業(yè)務(wù)熱點(diǎn)和異常點(diǎn),找到熱點(diǎn)算子,找到host側(cè)的瓶頸,找到熱點(diǎn)算子中的不符合預(yù)期的片段,為后續(xù)優(yōu)化提供精準(zhǔn)的指引。
加入工具團(tuán)隊(duì),你可以學(xué)習(xí)到全棧的調(diào)優(yōu)工具的開(kāi)發(fā)和調(diào)優(yōu)經(jīng)驗(yàn),也能廣泛參與各業(yè)務(wù)場(chǎng)景的性能調(diào)優(yōu)和問(wèn)題排查過(guò)程,從而更深入的了解大模型的大規(guī)模部署是如何調(diào)試和調(diào)優(yōu)的。
對(duì)極致性能的追求也是沒(méi)有止境的,我們不會(huì)止于在當(dāng)前硬件上達(dá)成最優(yōu)的極致性能,還必須進(jìn)一步深入到硬件架構(gòu)設(shè)計(jì)領(lǐng)域,共同探討架構(gòu)演進(jìn)的可能性,為未來(lái)的硬件架構(gòu)迭代做出重要的貢獻(xiàn)。
在寒武紀(jì),軟件和硬件的協(xié)同開(kāi)發(fā)是沒(méi)有壁壘的,只要能看到想到提升性能的機(jī)會(huì),就不會(huì)存在進(jìn)一步探索極致性能的邊界。
三高可靠性
為了支撐用戶對(duì)大規(guī)模集群長(zhǎng)時(shí)間、高強(qiáng)度的持續(xù)使用,寒武紀(jì)的運(yùn)維平臺(tái)具備大規(guī)模集群的實(shí)時(shí)故障監(jiān)測(cè)與快速診斷和快速恢復(fù)能力。用戶的業(yè)務(wù)系統(tǒng)可以進(jìn)行輕量級(jí)的故障巡檢,在大規(guī)模任務(wù)拉起之前就剔除異常的節(jié)點(diǎn)。在故障發(fā)生時(shí),自動(dòng)撈取故障現(xiàn)場(chǎng)的全棧故障信息和日志,日志分析工具可以讀取集群全量日志信息自動(dòng)分析輔助快速定位故障節(jié)點(diǎn),根據(jù)故障類型,給用戶提供合理的后續(xù)處理動(dòng)作,定位后用戶的業(yè)務(wù)可以根據(jù)故障的處理建議,例如重新加載驅(qū)動(dòng)或者重啟或者進(jìn)行故障卡的更換,剔除掉故障節(jié)點(diǎn)后快速恢復(fù)業(yè)務(wù)運(yùn)行。
高可靠性同樣需要全棧的參與,隨著更多更大的集群部署和落地,我們會(huì)面臨更多的挑戰(zhàn),所有組件都需要具備前瞻性,去為x10,x100倍規(guī)模下的集群可靠性做準(zhǔn)備。加入寒武紀(jì),你將有機(jī)會(huì)參與超大規(guī)模集群可靠性的前沿工作,有機(jī)會(huì)與合作伙伴一起工作,獲得超大業(yè)務(wù)模型部署運(yùn)維的寶貴經(jīng)驗(yàn)。