3月18日,理想汽車自動駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬在NVIDIA GTC 2025大會上正式發(fā)布新一代自動駕駛系統(tǒng)架構(gòu)MindVLA,并首次公開其技術(shù)實(shí)現(xiàn)路徑。該架構(gòu)基于視覺-語言-行為融合模型(VLA),整合了3D空間理解、邏輯推理與行為生成能力,計(jì)劃在7月與i8同步首發(fā)。
核心技術(shù)創(chuàng)新
多模態(tài)融合架構(gòu)
MindVLA采用三維空間編碼器與語言模型融合設(shè)計(jì),通過自研的混合專家(MoE)模型基座實(shí)現(xiàn)多任務(wù)處理。系統(tǒng)包含三大模塊:
(1)3D高斯表征建模:提升自動駕駛場景建模效率,訓(xùn)練速度較傳統(tǒng)方法加快7倍。
(2)行為決策優(yōu)化:利用擴(kuò)散模型(Diffusion)生成駕駛軌跡,結(jié)合常微分方程采樣器實(shí)現(xiàn)2-3步完成高質(zhì)量軌跡生成。
(3)云端統(tǒng)一世界模型:融合三維場景重建與生成能力,支持大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。
用戶交互能力升級
(1)“聽得懂”:用戶可通過自然語言指令調(diào)整車輛行為,例如在行駛中提出“開太快了”“應(yīng)走左側(cè)道路”等需求,系統(tǒng)可實(shí)時(shí)響應(yīng)。
(2)“看得見”:基于視覺語言模型(VLM),系統(tǒng)可識別非標(biāo)準(zhǔn)化交通標(biāo)志(如手寫標(biāo)語),并通過用戶拍攝的環(huán)境照片定位車輛位置。
(3)“找得到”:在無導(dǎo)航信息場景下,車輛可自主漫游尋找車位或目的地,例如用戶指令“帶我去找超市”觸發(fā)自主路徑探索。
技術(shù)驗(yàn)證與行業(yè)影響
(1)測試數(shù)據(jù):系統(tǒng)已完成超10億公里仿真測試,并引入人類偏好數(shù)據(jù)集優(yōu)化長尾場景處理能力。
(2)專利布局:理想汽車已申請127項(xiàng)優(yōu)化算法等領(lǐng)域,計(jì)劃于2025年第三季度開放部分技術(shù)文檔專利,涵蓋三維場景重建、軌跡。
部署規(guī)劃
MindVLA已完成工程化適配,計(jì)劃在7月與i8同步首發(fā)。理想汽車表示,該架構(gòu)未來或拓展至室內(nèi)環(huán)境等非駕駛場景,探索物理與數(shù)字世界結(jié)合的通用人工智能路徑。