國產開源模型DeepSeek-V3逼近行業(yè)頂尖并火到海外

作者：陳興華 2024-12-29

來源：愛集微 #AI大模型#

6.6w

近日，AI公司深度求索（DeepSeek）正式上線全新系列模型DeepSeek-V3首個版本并同步開源。官方數據顯示，該模型在多項評測集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他頭部開源模型，并逼近GPT-4o、Claude-3.5-Sonnet等頂尖閉源模型，甚至不分伯仲。

據官方技術論文披露，DeepSeek-V3是一個具有6710億總參數的MoE(混合專家)模型，在14.8萬億token上進行了預訓練。v3模型的總訓練成本為557.6萬美元，GPT-4o等模型的訓練成本約為1億美元。DeepSeek-V3定價為每百萬輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens 8元，并享有45天的優(yōu)惠價格體驗期。

顯然，高性價比是DeepSeek大模型的關鍵特色之一。今年5月，DeepSeek發(fā)布的V2開源模型，將推理成本降到每百萬token僅1元人民幣，隨后字節(jié)跳動、騰訊、百度、阿里等大廠紛紛降價，大模型價格戰(zhàn)由此一觸即發(fā)。

在DeepSeek-V3上線后，海外社交媒體平臺X迅速對其“刷屏”，其中的焦點在于這一模型能力對標頭部模型，但訓練的預算卻非常低，“2048個GPU、2個月、近600萬美元”，而GPT-4o等模型除了訓練成本約為1億美元，還需至少在萬個GPU量級的計算集群上訓練。