DeepSeek正在與清華大學(xué)合作,減少其人工智能(AI )模型所需的訓(xùn)練,以降低運(yùn)營(yíng)成本。
DeepSeek于1月份推出了低成本推理模型并引起市場(chǎng)轟動(dòng),該公司與北京大學(xué)的研究人員合作發(fā)表了一篇論文,詳細(xì)介紹了一種新的強(qiáng)化學(xué)習(xí)方法,以提高模型的效率。
研究人員寫(xiě)道,新方法旨在通過(guò)對(duì)更準(zhǔn)確、更易理解的響應(yīng)提供獎(jiǎng)勵(lì),幫助人工智能模型更好地遵循人類(lèi)的偏好。強(qiáng)化學(xué)習(xí)已被證明能有效地加速狹小應(yīng)用和領(lǐng)域的人工智能任務(wù)。然而,將其擴(kuò)展到更一般的應(yīng)用已被證明具有挑戰(zhàn)性,這就是 DeepSeek 團(tuán)隊(duì)試圖用一種稱(chēng)為自我原則批評(píng)調(diào)整的方法來(lái)解決的問(wèn)題。根據(jù)該論文,該策略在各種基準(zhǔn)測(cè)試中都優(yōu)于現(xiàn)有的方法和模型,結(jié)果顯示,在更少的計(jì)算資源下,性能更好。
DeepSeek 將這些新模型稱(chēng)為 DeepSeek-GRM(通用獎(jiǎng)勵(lì)模型的縮寫(xiě)),并將以開(kāi)源方式發(fā)布。包括阿里巴巴和OpenAI在內(nèi)的其他人工智能開(kāi)發(fā)商也在努力提高人工智能模型實(shí)時(shí)執(zhí)行任務(wù)時(shí)的推理和自我改進(jìn)能力。(校對(duì)/李梅)