5月17日,理想汽車創(chuàng)始人李想近日在“理想AI Talk第二季”中,詳細(xì)闡述了他對當(dāng)前人工智能發(fā)展趨勢的觀察以及理想汽車在智能駕駛和AI領(lǐng)域的布局。他指出,在距離上次AI對話約130天的時(shí)間里,最令他高興的是看到整個(gè)中國的進(jìn)步,包括DeepSeek、千問等國內(nèi)模型已將中國在基座模型、推理和多模態(tài)方面的水平基本拉近或與美國處在同一水平線上。
李想認(rèn)為,中國企業(yè)在模型效率方面做得更好,進(jìn)行了深層工程改造,這增強(qiáng)了行業(yè)的信心。他特別提到,DeepSeek V3的混合專家模型(MoE)架構(gòu)(671B參數(shù))及其極簡地運(yùn)用“人類最佳實(shí)踐”(研究-研發(fā)-表達(dá)能力-業(yè)務(wù)價(jià)值)的做法,令他受益匪淺。
李想坦承,盡管AI技術(shù)發(fā)展迅猛,但他個(gè)人的工作時(shí)長并未減少,反而在增加。他認(rèn)為主要原因是,大多數(shù)人目前仍將AI視為一種信息工具。這種工具依賴聯(lián)網(wǎng)搜索和檢索增強(qiáng)生成(RAG),但信息源本身可能存在失真和不準(zhǔn)確,導(dǎo)致推理過程和結(jié)果出現(xiàn)問題,甚至增加無效信息(熵增)。
他將AI工具分為三類:信息工具、輔助工具和生產(chǎn)工具。只有當(dāng)AI真正成為生產(chǎn)工具,能夠替代人類完成專業(yè)工作、解決最核心的8小時(shí)工作時(shí)間、產(chǎn)生有效生產(chǎn)力時(shí),AI的價(jià)值才能真正爆發(fā)。他認(rèn)為,未來的Agent(智能體)不會是通用的,而是每個(gè)專業(yè)領(lǐng)域都會有專業(yè)的Agent,因?yàn)椴煌I(lǐng)域的語料、行動和思維鏈?zhǔn)峭耆煌摹?/p>
對于DeepSeek的出現(xiàn),李想給予了高度評價(jià)。他透露,DeepSeek的開源對理想汽車的自動駕駛研發(fā)產(chǎn)生了巨大幫助,特別是VLA模型中的語言(L)部分,加速了大約9個(gè)月的時(shí)間。正是因?yàn)镈eepSeek帶來了如此大的收益和幫助,理想汽車決定將自研了四年的整車操作系統(tǒng)理想星環(huán)OS開源,這是一種對社會的貢獻(xiàn)和感謝,并非出于公司戰(zhàn)略,而是源于一種樸素的情懷。
盡管擁抱了DeepSeek,但李想強(qiáng)調(diào),理想汽車不僅沒有放棄自研基座模型團(tuán)隊(duì),反而加大了投入,僅訓(xùn)練卡采購量就比今年的預(yù)期多買了3倍。他解釋說,這是因?yàn)槔硐肫嚨臉I(yè)務(wù)場景特殊,車載環(huán)境需要針對性的基座模型,包括3D視覺、高清2D視覺(分辨率提升10倍)、交通/駕駛/家庭領(lǐng)域?qū)I(yè)語料,以及視覺與語言聯(lián)合語料。這些數(shù)據(jù)和場景是通用大模型所不具備的。理想汽車目前正在訓(xùn)練不同規(guī)模的模型,例如用于車載智能助手(理想同學(xué))的約3000億參數(shù)模型,以及用于輔助駕駛VLA視覺語言部分的320億參數(shù)模型。
李想將理想汽車的智能駕駛發(fā)展劃分為三個(gè)階段:從規(guī)則算法階段(昆蟲智能),到端到端+VLM階段(哺乳動物智能),最終邁入VLA(視覺、語言、行動模型)階段(人類智能)。他將車載VLA稱為“司機(jī)大模型”,目標(biāo)是像人類司機(jī)一樣工作。他認(rèn)為,交通領(lǐng)域是實(shí)現(xiàn)VLA的最佳實(shí)驗(yàn)場,因?yàn)橐?guī)則清晰、環(huán)境確定、車輛控制自由度相對較低,便于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。VLA的訓(xùn)練流程復(fù)雜而系統(tǒng)化,包括預(yù)訓(xùn)練VL基座(整合多源數(shù)據(jù),蒸餾到端側(cè))、后訓(xùn)練加入行動模塊(模仿駕駛行為)、以及強(qiáng)化訓(xùn)練(通過人類反饋和世界模型訓(xùn)練,追求超越人類的平均駕駛水平)。
針對VLA將行動引入物理世界帶來的安全問題,理想汽車專門組建了百人規(guī)模的“超級對齊”團(tuán)隊(duì)。這個(gè)團(tuán)隊(duì)的核心任務(wù)是確保即使模型能力很強(qiáng),也能像一個(gè)職業(yè)司機(jī)一樣,遵守交通規(guī)則、符合人類駕駛習(xí)慣、保證安全和舒適性,避免出現(xiàn)激進(jìn)或不安全的行為。李想認(rèn)為,這就像雇傭職業(yè)司機(jī)一樣,除了駕駛技術(shù),更重要的是其“職業(yè)性”,即價(jià)值觀對齊。此外,為解決模型黑盒問題和提高驗(yàn)證效率,理想汽車構(gòu)建了基于重建和生成的交通世界模型,可以在虛擬環(huán)境中模擬真實(shí)場景,進(jìn)行高效、可重復(fù)的測試和問題解決。
李想表示,邁向VLA無法跳過端到端等前期積累,“無法直接吃第十個(gè)包子”。他強(qiáng)調(diào)扎實(shí)的基本功在AI時(shí)代尤為重要。理想汽車自2021年開始自研輔助駕駛,在操作系統(tǒng)、訓(xùn)練體系、底層芯片軟件優(yōu)化等方面都進(jìn)行了深入投入。他認(rèn)為理想的智駕在原創(chuàng)性上甚至超過了增程技術(shù)。面對行業(yè)競爭,他認(rèn)為應(yīng)學(xué)習(xí)頂尖公司的基本功,因?yàn)樵贏I時(shí)代,能力強(qiáng)的公司能很快復(fù)制創(chuàng)新,基礎(chǔ)扎實(shí)才能應(yīng)對挑戰(zhàn)。盡管VLA是目前能力最強(qiáng)、最接近人類駕駛的架構(gòu),李想對其是否是效率最高的終極架構(gòu)持開放態(tài)度。他也指出,對于ETC收費(fèi)站這類確定性場景,使用規(guī)則算法比純模型更高效、準(zhǔn)確且成本更低。
回顧創(chuàng)業(yè)歷程,李想認(rèn)為最深刻的記憶是理想ONE和理想L9的成功發(fā)布,但也經(jīng)歷過產(chǎn)品發(fā)布后的低谷和質(zhì)疑。他選擇將這些困難視為成長的機(jī)會,并盡可能只保留有價(jià)值的美好記憶,以保持正能量。
在個(gè)人成長和能量方面,李想認(rèn)為關(guān)鍵在于關(guān)注人,尤其是親密關(guān)系,接受自己和別人的優(yōu)點(diǎn)與不足,通過持續(xù)的成長來獲取和傳遞能量。他看到了家人和團(tuán)隊(duì)的成長帶來的巨大能量,并認(rèn)為AI應(yīng)幫助人類有更多時(shí)間與“萬物”接觸,獲取智慧。最后,他表示AI時(shí)代應(yīng)保留人性的所有特質(zhì),無論好壞,因?yàn)樗鼈児餐瑯?gòu)成了生命的活力。