理想發(fā)布新一代自動駕駛架構(gòu)MindVLA 計(jì)劃在7月與i8同步首發(fā)

作者：集小微 03-18 16:45

來源：鳳凰網(wǎng) #理想# #MindVLA# #自動駕駛#

3月18日，理想汽車自動駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬在NVIDIA GTC 2025大會上正式發(fā)布新一代自動駕駛系統(tǒng)架構(gòu)MindVLA，并首次公開其技術(shù)實(shí)現(xiàn)路徑。該架構(gòu)基于視覺-語言-行為融合模型（VLA），整合了3D空間理解、邏輯推理與行為生成能力，計(jì)劃在7月與i8同步首發(fā)。

核心技術(shù)創(chuàng)新

多模態(tài)融合架構(gòu)

MindVLA采用三維空間編碼器與語言模型融合設(shè)計(jì)，通過自研的混合專家（MoE）模型基座實(shí)現(xiàn)多任務(wù)處理。系統(tǒng)包含三大模塊：

（1）3D高斯表征建模：提升自動駕駛場景建模效率，訓(xùn)練速度較傳統(tǒng)方法加快7倍。

（2）行為決策優(yōu)化：利用擴(kuò)散模型（Diffusion）生成駕駛軌跡，結(jié)合常微分方程采樣器實(shí)現(xiàn)2-3步完成高質(zhì)量軌跡生成。

（3）云端統(tǒng)一世界模型：融合三維場景重建與生成能力，支持大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。

用戶交互能力升級

（1）“聽得懂”：用戶可通過自然語言指令調(diào)整車輛行為，例如在行駛中提出“開太快了”“應(yīng)走左側(cè)道路”等需求，系統(tǒng)可實(shí)時(shí)響應(yīng)。

（2）“看得見”：基于視覺語言模型（VLM），系統(tǒng)可識別非標(biāo)準(zhǔn)化交通標(biāo)志（如手寫標(biāo)語），并通過用戶拍攝的環(huán)境照片定位車輛位置。

（3）“找得到”：在無導(dǎo)航信息場景下，車輛可自主漫游尋找車位或目的地，例如用戶指令“帶我去找超市”觸發(fā)自主路徑探索。

技術(shù)驗(yàn)證與行業(yè)影響

（1）測試數(shù)據(jù)：系統(tǒng)已完成超10億公里仿真測試，并引入人類偏好數(shù)據(jù)集優(yōu)化長尾場景處理能力。