DeepSeek開源加速理想9個(gè)月李想：我們?nèi)詧?jiān)持自研基座模型

作者：集小微 4小時(shí)前

來源：鳳凰網(wǎng) #理想汽車# #智能駕駛# #AI#

1570

5月17日，理想汽車創(chuàng)始人李想近日在“理想AI Talk第二季”中，詳細(xì)闡述了他對當(dāng)前人工智能發(fā)展趨勢的觀察以及理想汽車在智能駕駛和AI領(lǐng)域的布局。他指出，在距離上次AI對話約130天的時(shí)間里，最令他高興的是看到整個(gè)中國的進(jìn)步，包括DeepSeek、千問等國內(nèi)模型已將中國在基座模型、推理和多模態(tài)方面的水平基本拉近或與美國處在同一水平線上。

李想認(rèn)為，中國企業(yè)在模型效率方面做得更好，進(jìn)行了深層工程改造，這增強(qiáng)了行業(yè)的信心。他特別提到，DeepSeek V3的混合專家模型（MoE）架構(gòu)（671B參數(shù)）及其極簡地運(yùn)用“人類最佳實(shí)踐”（研究-研發(fā)-表達(dá)能力-業(yè)務(wù)價(jià)值）的做法，令他受益匪淺。

李想坦承，盡管AI技術(shù)發(fā)展迅猛，但他個(gè)人的工作時(shí)長并未減少，反而在增加。他認(rèn)為主要原因是，大多數(shù)人目前仍將AI視為一種信息工具。這種工具依賴聯(lián)網(wǎng)搜索和檢索增強(qiáng)生成（RAG），但信息源本身可能存在失真和不準(zhǔn)確，導(dǎo)致推理過程和結(jié)果出現(xiàn)問題，甚至增加無效信息（熵增）。

他將AI工具分為三類：信息工具、輔助工具和生產(chǎn)工具。只有當(dāng)AI真正成為生產(chǎn)工具，能夠替代人類完成專業(yè)工作、解決最核心的8小時(shí)工作時(shí)間、產(chǎn)生有效生產(chǎn)力時(shí)，AI的價(jià)值才能真正爆發(fā)。他認(rèn)為，未來的Agent（智能體）不會是通用的，而是每個(gè)專業(yè)領(lǐng)域都會有專業(yè)的Agent，因?yàn)椴煌I(lǐng)域的語料、行動和思維鏈?zhǔn)峭耆煌摹?/p>

對于DeepSeek的出現(xiàn)，李想給予了高度評價(jià)。他透露，DeepSeek的開源對理想汽車的自動駕駛研發(fā)產(chǎn)生了巨大幫助，特別是VLA模型中的語言（L）部分，加速了大約9個(gè)月的時(shí)間。正是因?yàn)镈eepSeek帶來了如此大的收益和幫助，理想汽車決定將自研了四年的整車操作系統(tǒng)理想星環(huán)OS開源，這是一種對社會的貢獻(xiàn)和感謝，并非出于公司戰(zhàn)略，而是源于一種樸素的情懷。

盡管擁抱了DeepSeek，但李想強(qiáng)調(diào)，理想汽車不僅沒有放棄自研基座模型團(tuán)隊(duì)，反而加大了投入，僅訓(xùn)練卡采購量就比今年的預(yù)期多買了3倍。他解釋說，這是因?yàn)槔硐肫嚨臉I(yè)務(wù)場景特殊，車載環(huán)境需要針對性的基座模型，包括3D視覺、高清2D視覺（分辨率提升10倍）、交通/駕駛/家庭領(lǐng)域?qū)I(yè)語料，以及視覺與語言聯(lián)合語料。這些數(shù)據(jù)和場景是通用大模型所不具備的。理想汽車目前正在訓(xùn)練不同規(guī)模的模型，例如用于車載智能助手（理想同學(xué)）的約3000億參數(shù)模型，以及用于輔助駕駛VLA視覺語言部分的320億參數(shù)模型。

李想將理想汽車的智能駕駛發(fā)展劃分為三個(gè)階段：從規(guī)則算法階段（昆蟲智能），到端到端+VLM階段（哺乳動物智能），最終邁入VLA（視覺、語言、行動模型）階段（人類智能）。他將車載VLA稱為“司機(jī)大模型”，目標(biāo)是像人類司機(jī)一樣工作。他認(rèn)為，交通領(lǐng)域是實(shí)現(xiàn)VLA的最佳實(shí)驗(yàn)場，因?yàn)橐?guī)則清晰、環(huán)境確定、車輛控制自由度相對較低，便于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。VLA的訓(xùn)練流程復(fù)雜而系統(tǒng)化，包括預(yù)訓(xùn)練VL基座（整合多源數(shù)據(jù)，蒸餾到端側(cè)）、后訓(xùn)練加入行動模塊（模仿駕駛行為）、以及強(qiáng)化訓(xùn)練（通過人類反饋和世界模型訓(xùn)練，追求超越人類的平均駕駛水平）。

針對VLA將行動引入物理世界帶來的安全問題，理想汽車專門組建了百人規(guī)模的“超級對齊”團(tuán)隊(duì)。這個(gè)團(tuán)隊(duì)的核心任務(wù)是確保即使模型能力很強(qiáng)，也能像一個(gè)職業(yè)司機(jī)一樣，遵守交通規(guī)則、符合人類駕駛習(xí)慣、保證安全和舒適性，避免出現(xiàn)激進(jìn)或不安全的行為。李想認(rèn)為，這就像雇傭職業(yè)司機(jī)一樣，除了駕駛技術(shù)，更重要的是其“職業(yè)性”，即價(jià)值觀對齊。此外，為解決模型黑盒問題和提高驗(yàn)證效率，理想汽車構(gòu)建了基于重建和生成的交通世界模型，可以在虛擬環(huán)境中模擬真實(shí)場景，進(jìn)行高效、可重復(fù)的測試和問題解決。

李想表示，邁向VLA無法跳過端到端等前期積累，“無法直接吃第十個(gè)包子”。他強(qiáng)調(diào)扎實(shí)的基本功在AI時(shí)代尤為重要。理想汽車自2021年開始自研輔助駕駛，在操作系統(tǒng)、訓(xùn)練體系、底層芯片軟件優(yōu)化等方面都進(jìn)行了深入投入。他認(rèn)為理想的智駕在原創(chuàng)性上甚至超過了增程技術(shù)。面對行業(yè)競爭，他認(rèn)為應(yīng)學(xué)習(xí)頂尖公司的基本功，因?yàn)樵贏I時(shí)代，能力強(qiáng)的公司能很快復(fù)制創(chuàng)新，基礎(chǔ)扎實(shí)才能應(yīng)對挑戰(zhàn)。盡管VLA是目前能力最強(qiáng)、最接近人類駕駛的架構(gòu)，李想對其是否是效率最高的終極架構(gòu)持開放態(tài)度。他也指出，對于ETC收費(fèi)站這類確定性場景，使用規(guī)則算法比純模型更高效、準(zhǔn)確且成本更低。

回顧創(chuàng)業(yè)歷程，李想認(rèn)為最深刻的記憶是理想ONE和理想L9的成功發(fā)布，但也經(jīng)歷過產(chǎn)品發(fā)布后的低谷和質(zhì)疑。他選擇將這些困難視為成長的機(jī)會，并盡可能只保留有價(jià)值的美好記憶，以保持正能量。

在個(gè)人成長和能量方面，李想認(rèn)為關(guān)鍵在于關(guān)注人，尤其是親密關(guān)系，接受自己和別人的優(yōu)點(diǎn)與不足，通過持續(xù)的成長來獲取和傳遞能量。他看到了家人和團(tuán)隊(duì)的成長帶來的巨大能量，并認(rèn)為AI應(yīng)幫助人類有更多時(shí)間與“萬物”接觸，獲取智慧。最后，他表示AI時(shí)代應(yīng)保留人性的所有特質(zhì)，無論好壞，因?yàn)樗鼈児餐瑯?gòu)成了生命的活力。