隨著互聯(lián)網(wǎng)自然語(yǔ)言數(shù)據(jù)逐漸耗盡,AI想要獲得進(jìn)一步的突破性成長(zhǎng),需要走出數(shù)字世界,邁向物理世界。
如同人類(lèi)的進(jìn)化軌跡——當(dāng)機(jī)器能夠在現(xiàn)實(shí)物理世界中自主探索,便能完成自我迭代與持續(xù)進(jìn)化。
7月27日,由全國(guó)工商聯(lián)人工智能委員會(huì)傾力主辦,商湯科技承辦的“大愛(ài)無(wú)疆·模塑未來(lái)” WAIC 2025大模型論壇上,商湯科技正式發(fā)布「悟能」具身智能平臺(tái),從開(kāi)悟世界模型到明晰智能、開(kāi)悟智能,旨在為具身智能打造一個(gè)能夠在現(xiàn)實(shí)世界中自由探索成長(zhǎng)的強(qiáng)大“訓(xùn)練場(chǎng)”。
基于方舟視覺(jué)感知、大裝置、日日新大模型等多種技術(shù)的長(zhǎng)期積累,商湯「悟能」具身智能平臺(tái)以商湯“開(kāi)悟”世界模型為核心引擎,依托商湯大裝置提供強(qiáng)大的端側(cè)和云側(cè)算力支持,能夠?yàn)闄C(jī)器人、智能設(shè)備賦予強(qiáng)大的感知、視覺(jué)導(dǎo)航及多模態(tài)交互能力,推動(dòng)智能終端向更高層次的自主化與智能化演進(jìn)。
全國(guó)工商聯(lián)人工智能委員會(huì)主席團(tuán)首任輪值主席、商湯科技董事長(zhǎng)兼首席執(zhí)行官徐立表示,“世界模型和具身AI的結(jié)合,將開(kāi)啟AI發(fā)展的下一個(gè)階段,完成由‘工具’向‘人’的躍遷,加速邁向AGI時(shí)代。商湯希望「悟能」具身智能平臺(tái)能夠幫助各類(lèi)具身智能企業(yè),幫助他們完成和現(xiàn)實(shí)世界交互的夢(mèng)想?!?/p>
感知全能、導(dǎo)航精準(zhǔn)、交互靈活
為具身智能打造“三大核心引擎”
感知、導(dǎo)航和交互,是具身智能的三大核心能力。
商湯科技在這三大方面均擁有深厚的技術(shù)積淀,如今這些積累轉(zhuǎn)化成了「悟能」具身智能的能力。
首先,感知是機(jī)器探索現(xiàn)實(shí)世界的基礎(chǔ)。
憑借商湯方舟在視覺(jué)AI領(lǐng)域十余年的深耕積累,從機(jī)器狗到機(jī)器人,「悟能」具身智能平臺(tái)能為各類(lèi)終端硬件賦予對(duì)萬(wàn)物的識(shí)別與理解能力,同時(shí)具有強(qiáng)大的場(chǎng)景適配性,可完全嵌入端側(cè)芯片實(shí)現(xiàn)端側(cè)推理,讓感知更高效、響應(yīng)更敏捷。
無(wú)論是機(jī)器狗的視角還是機(jī)器人的視角,都能對(duì)外界有整體的天然感知識(shí)別,對(duì)物體形成自然劃分切割。
導(dǎo)航是機(jī)器在現(xiàn)實(shí)世界中行動(dòng)的“骨架”。
商湯絕影在純視覺(jué)端到端智能輔助駕駛方案上的技術(shù)積累,可泛化適配至機(jī)器人、機(jī)器狗等硬件設(shè)備,讓機(jī)器人在更多樣的環(huán)境中實(shí)現(xiàn)精準(zhǔn)路徑規(guī)劃與導(dǎo)航。
同樣,無(wú)論是在綠化小路中四足奔走的、體型較小的機(jī)器狗還是行駛在城區(qū)正常車(chē)道的自動(dòng)駕駛車(chē)輛都在實(shí)現(xiàn)精準(zhǔn)路徑規(guī)劃與導(dǎo)航的同時(shí),準(zhǔn)確地進(jìn)行了自動(dòng)避障。
交互是機(jī)器與現(xiàn)實(shí)世界連接的橋梁。
基于“日日新”大模型的技術(shù)積累與不斷迭代,“悟能”具身智能平臺(tái)可以賦能機(jī)器人具備和現(xiàn)實(shí)世界的交互能力,具備有溫度、有深度、長(zhǎng)記憶、超穩(wěn)定等能力亮點(diǎn)。
以AI生成的《長(zhǎng)安的荔枝》電影介紹PPT為例,由“悟能”具身智能平臺(tái)賦能的人形機(jī)器人,能夠以各種風(fēng)趣幽默、嚴(yán)謹(jǐn)務(wù)實(shí)等各種語(yǔ)言風(fēng)格進(jìn)行生動(dòng)講解。
同時(shí),它還可以自動(dòng)翻頁(yè),實(shí)時(shí)響應(yīng)用戶(hù)提問(wèn),敏銳捕捉用戶(hù)意圖,期間用戶(hù)打斷提問(wèn),它完成提問(wèn)后還能回歸繼續(xù)講解。
它還能結(jié)合長(zhǎng)記憶能力進(jìn)行階段性回顧歷史用戶(hù)提問(wèn),作出小結(jié),即便遇到嘈雜環(huán)境也能輕松應(yīng)對(duì)。
商湯“悟能”具身智能平臺(tái)可廣泛適配包括汽車(chē)、機(jī)器人在內(nèi)的各類(lèi)終端,實(shí)現(xiàn)空間層面的現(xiàn)實(shí)世界互動(dòng)。
構(gòu)建4D真實(shí)世界
為機(jī)器進(jìn)化提供高質(zhì)量現(xiàn)實(shí)世界數(shù)據(jù)
基于強(qiáng)大的多模態(tài)深度理解能力,商湯“開(kāi)悟”世界模型具備合理的空間一致性和時(shí)間一致性,可生成高質(zhì)量數(shù)據(jù),有效提升具身智能等終端設(shè)備的智能水平。
“開(kāi)悟”世界模型能夠僅憑自然語(yǔ)言描述,即可生成逼真的七路攝像頭視角模擬數(shù)據(jù),且不同視角下的幾何位置高度對(duì)應(yīng),完全符合物理世界的規(guī)律。
“開(kāi)悟”世界模型還能夠編輯真實(shí)世界,可對(duì)現(xiàn)實(shí)世界中的車(chē)輛等場(chǎng)景元素進(jìn)行替換、刪除、增補(bǔ),創(chuàng)造更加多樣的現(xiàn)實(shí)場(chǎng)景。
小汽車(chē)變成小貨車(chē)↓
“天降”公共汽車(chē)↓
基于強(qiáng)大的生成和編輯能力,“開(kāi)悟”世界模型可以精準(zhǔn)模擬方向盤(pán)、剎車(chē)和油門(mén)控制,帶來(lái)如同在真實(shí)的街道場(chǎng)景中玩“極品飛車(chē)”的效果,讓機(jī)器在現(xiàn)實(shí)世界中自由探索。
到了具身世界,發(fā)揮空間則更大。
相較于智能汽車(chē),機(jī)器人適用和覆蓋的場(chǎng)景更加廣泛,能夠通過(guò)主動(dòng)探索生成更多高質(zhì)量的現(xiàn)實(shí)世界數(shù)據(jù),在具身智能數(shù)據(jù)匱乏的當(dāng)前環(huán)境下,可通過(guò)構(gòu)建面向人、物、場(chǎng)的4D真實(shí)世界,突破模型泛化能力的邊界。
具身世界模型讓用戶(hù)僅需要輸入簡(jiǎn)單的提示詞,就能自主進(jìn)行位姿、動(dòng)作骨架和指令的生成,讓機(jī)器人動(dòng)作更合理。
給出“在廚房區(qū)域的架子上找東西”指令,具身世界模型可以準(zhǔn)確生成相應(yīng)的場(chǎng)景視頻和機(jī)器人的連續(xù)位姿。
再來(lái)一組,還是只給出初始視角。
給出“進(jìn)入娛樂(lè)室、向右轉(zhuǎn),然后打開(kāi)通往院子的門(mén)”指令,具身世界模型不僅可以進(jìn)行連續(xù)位姿生成,還支持多角度查看,并保持高度的時(shí)空一致性。
給出“生成一段切黃瓜的機(jī)器人視頻”指令,具身世界模型可準(zhǔn)確生成動(dòng)作骨架,隨后輸出具身第一視角、第三視角4D世界視角等多種視角的視頻。
給出“生成一段白天公園里機(jī)器人跳躍的視頻”指令,具身世界模型同樣可以模擬生成符合3D關(guān)系的4D世界的真實(shí)視頻。
即便是不同相機(jī)位姿視角的視頻生成,具身世界模型也能輕松拿捏,來(lái)看下具身世界模型生成的多視角視頻畫(huà)面↓↓↓
商湯“悟能”具身智能平臺(tái)正在實(shí)質(zhì)性打破虛實(shí)界限,構(gòu)建AI與物理世界交互的高效通路。
未來(lái),商湯科技希望助力賦能具身智能企業(yè)實(shí)現(xiàn)感知、理解與生成能力的躍遷,將具身交互的不確定性挑戰(zhàn)轉(zhuǎn)化為產(chǎn)業(yè)升級(jí)的確定性路徑,推動(dòng)AI向下一個(gè)十年加速進(jìn)化。