據(jù)外媒近日報道,人工智能公司DeepSeek因芯片問題推遲了其R2模型的發(fā)布。據(jù)悉,DeepSeek在訓(xùn)練R2模型時使用了華為的昇騰芯片,但由于昇騰平臺的穩(wěn)定性欠佳、軟硬件支持不足以及芯片通信速度慢等問題,導(dǎo)致訓(xùn)練過程受阻。為此,DeepSeek不得不在訓(xùn)練階段改用英偉達(dá)芯片,而在推理階段繼續(xù)使用華為芯片,這一調(diào)整使得R2模型的發(fā)布時間從原定的5月起被迫推遲。
為了解決這一問題,華為派遣了一個工程師團(tuán)隊(duì)前往DeepSeek的辦公室,協(xié)助其使用昇騰芯片進(jìn)行R2模型的開發(fā)。目前,DeepSeek仍在與華為合作,以確保推理階段的兼容性。盡管如此,DeepSeek的創(chuàng)始人梁文鋒對目前的進(jìn)展表示不滿,并決定加碼研發(fā)投入,力爭在幾周內(nèi)完成R2模型的發(fā)布。
此外,數(shù)據(jù)標(biāo)注耗時超預(yù)期也是影響R2發(fā)布的重要因素之一。數(shù)據(jù)標(biāo)注是人工智能模型訓(xùn)練中的關(guān)鍵環(huán)節(jié),耗時過長無疑增加了項(xiàng)目整體的時間成本。
DeepSeek作為一家專注于人工智能領(lǐng)域的創(chuàng)新企業(yè),其R2模型的發(fā)布備受業(yè)界關(guān)注。此次因芯片問題導(dǎo)致的推遲,不僅反映了當(dāng)前芯片供應(yīng)鏈的復(fù)雜性和技術(shù)挑戰(zhàn),也凸顯了企業(yè)在技術(shù)研發(fā)過程中面臨的諸多不確定性。
值得關(guān)注的是,中國監(jiān)管層近月要求本土科技公司說明采購英偉達(dá) H20 芯片的必要性,意在推動國產(chǎn)替代。但業(yè)內(nèi)普遍認(rèn)為,國產(chǎn)芯片在訓(xùn)練場景的成熟度、生態(tài)完整度仍落后英偉達(dá)一到兩代。伯克利 AI 研究員 Ritwik Gupta 指出,“模型同質(zhì)化趨勢明顯,開發(fā)者隨時可以切換到阿里 Qwen3 等競品”,這意味著留給 DeepSeek 的窗口期并不寬裕。