中國(guó)實(shí)體正在創(chuàng)新以訓(xùn)練其高級(jí)AI模型,01.ai(零一萬(wàn)物)的創(chuàng)始人兼負(fù)責(zé)人李開(kāi)復(fù)本周表示,他的公司僅用300萬(wàn)美元和2000個(gè)GPU就訓(xùn)練了一個(gè)高級(jí)AI模型。
李開(kāi)復(fù)表示,OpenAI花費(fèi)了8000萬(wàn)到1億美元來(lái)訓(xùn)練GPT-4,據(jù)報(bào)道GPT-5的訓(xùn)練費(fèi)用高達(dá)10億美元,而01.ai僅用300萬(wàn)美元就訓(xùn)練出了其高性能模型。根據(jù)公司網(wǎng)站上的圖表,01.ai的Yi-Lightning在加州大學(xué)伯克利分校LMSIS測(cè)量的模型性能中排名第六。
這一成就當(dāng)然特別引人注目,因?yàn)樵摴驹诔杀拘б嫔媳憩F(xiàn)出色。這種鮮明的對(duì)比表明,實(shí)現(xiàn)頂級(jí)AI能力并不總是需要巨額預(yù)算,因?yàn)橥ㄟ^(guò)精心設(shè)計(jì)和有針對(duì)性的優(yōu)化,可以在成本和計(jì)算資源的極小部分上獲得類(lèi)似的結(jié)果。
據(jù)悉,OpenAI使用了1萬(wàn)個(gè)英偉達(dá)A100 GPU來(lái)訓(xùn)練其GPT-3模型,并且使用了更多的H100處理器來(lái)訓(xùn)練其GPT-4和GPT-4o模型。通過(guò)采用各種創(chuàng)新解決方案,01.ai不得不使用2000個(gè)未公開(kāi)的GPU來(lái)訓(xùn)練其Yi-Lightning模型。然而,去年李開(kāi)復(fù)表示,他的公司有足夠的GPU來(lái)執(zhí)行其1.5年的路線圖。不過(guò),成本數(shù)字并不相符。一個(gè)英偉達(dá)H100 GPU的成本約為3萬(wàn)美元,因此2000個(gè)這樣的GPU將花費(fèi)600萬(wàn)美元。
為了提升模型性能,01.ai專(zhuān)注于通過(guò)將計(jì)算需求轉(zhuǎn)化為面向內(nèi)存的任務(wù)、構(gòu)建多層緩存系統(tǒng)以及設(shè)計(jì)專(zhuān)門(mén)的推理引擎來(lái)優(yōu)化速度和資源分配,從而減少其推理過(guò)程中的瓶頸。結(jié)果,01.ai的推理成本大大低于類(lèi)似模型——每百萬(wàn)代幣10美分,大約是可比模型典型收費(fèi)的1/30。
但李開(kāi)復(fù)同時(shí)指出,中國(guó)公司,尤其是01.ai,面臨重大挑戰(zhàn)。由于美國(guó)出口限制,他們幾乎無(wú)法獲得先進(jìn)GPU。他們與美國(guó)AI公司相比也存在估值劣勢(shì),這影響了他們的可用資源和投資機(jī)會(huì)。(校對(duì)/李梅)