近日,AI公司深度求索(DeepSeek)正式上線全新系列模型DeepSeek-V3首個版本并同步開源。官方數據顯示,該模型在多項評測集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他頭部開源模型,并逼近GPT-4o、Claude-3.5-Sonnet等頂尖閉源模型,甚至不分伯仲。
據官方技術論文披露,DeepSeek-V3是一個具有6710億總參數的MoE(混合專家)模型,在14.8萬億token上進行了預訓練。v3模型的總訓練成本為557.6萬美元,GPT-4o等模型的訓練成本約為1億美元。DeepSeek-V3定價為每百萬輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens 8元,并享有45天的優(yōu)惠價格體驗期。
顯然,高性價比是DeepSeek大模型的關鍵特色之一。今年5月,DeepSeek發(fā)布的V2開源模型,將推理成本降到每百萬token僅1元人民幣,隨后字節(jié)跳動、騰訊、百度、阿里等大廠紛紛降價,大模型價格戰(zhàn)由此一觸即發(fā)。
在DeepSeek-V3上線后,海外社交媒體平臺X迅速對其“刷屏”,其中的焦點在于這一模型能力對標頭部模型,但訓練的預算卻非常低,“2048個GPU、2個月、近600萬美元”,而GPT-4o等模型除了訓練成本約為1億美元,還需至少在萬個GPU量級的計算集群上訓練。