商湯發(fā)布“悟能”具身智能平臺(tái)，AI在物理世界中實(shí)現(xiàn)自我進(jìn)化

作者：愛(ài)集微 11小時(shí)前

來(lái)源：商湯科技 #商湯科技#

6404

隨著互聯(lián)網(wǎng)自然語(yǔ)言數(shù)據(jù)逐漸耗盡，AI想要獲得進(jìn)一步的突破性成長(zhǎng)，需要走出數(shù)字世界，邁向物理世界。

如同人類(lèi)的進(jìn)化軌跡——當(dāng)機(jī)器能夠在現(xiàn)實(shí)物理世界中自主探索，便能完成自我迭代與持續(xù)進(jìn)化。

7月27日，由全國(guó)工商聯(lián)人工智能委員會(huì)傾力主辦，商湯科技承辦的“大愛(ài)無(wú)疆·模塑未來(lái)” WAIC 2025大模型論壇上，商湯科技正式發(fā)布「悟能」具身智能平臺(tái)，從開(kāi)悟世界模型到明晰智能、開(kāi)悟智能，旨在為具身智能打造一個(gè)能夠在現(xiàn)實(shí)世界中自由探索成長(zhǎng)的強(qiáng)大“訓(xùn)練場(chǎng)”。

基于方舟視覺(jué)感知、大裝置、日日新大模型等多種技術(shù)的長(zhǎng)期積累，商湯「悟能」具身智能平臺(tái)以商湯“開(kāi)悟”世界模型為核心引擎，依托商湯大裝置提供強(qiáng)大的端側(cè)和云側(cè)算力支持，能夠?yàn)闄C(jī)器人、智能設(shè)備賦予強(qiáng)大的感知、視覺(jué)導(dǎo)航及多模態(tài)交互能力，推動(dòng)智能終端向更高層次的自主化與智能化演進(jìn)。

全國(guó)工商聯(lián)人工智能委員會(huì)主席團(tuán)首任輪值主席、商湯科技董事長(zhǎng)兼首席執(zhí)行官徐立表示，“世界模型和具身AI的結(jié)合，將開(kāi)啟AI發(fā)展的下一個(gè)階段，完成由‘工具’向‘人’的躍遷，加速邁向AGI時(shí)代。商湯希望「悟能」具身智能平臺(tái)能夠幫助各類(lèi)具身智能企業(yè)，幫助他們完成和現(xiàn)實(shí)世界交互的夢(mèng)想?！?/p>

感知全能、導(dǎo)航精準(zhǔn)、交互靈活

為具身智能打造“三大核心引擎”

感知、導(dǎo)航和交互，是具身智能的三大核心能力。

商湯科技在這三大方面均擁有深厚的技術(shù)積淀，如今這些積累轉(zhuǎn)化成了「悟能」具身智能的能力。

首先，感知是機(jī)器探索現(xiàn)實(shí)世界的基礎(chǔ)。

憑借商湯方舟在視覺(jué)AI領(lǐng)域十余年的深耕積累，從機(jī)器狗到機(jī)器人，「悟能」具身智能平臺(tái)能為各類(lèi)終端硬件賦予對(duì)萬(wàn)物的識(shí)別與理解能力，同時(shí)具有強(qiáng)大的場(chǎng)景適配性，可完全嵌入端側(cè)芯片實(shí)現(xiàn)端側(cè)推理，讓感知更高效、響應(yīng)更敏捷。

無(wú)論是機(jī)器狗的視角還是機(jī)器人的視角，都能對(duì)外界有整體的天然感知識(shí)別，對(duì)物體形成自然劃分切割。

導(dǎo)航是機(jī)器在現(xiàn)實(shí)世界中行動(dòng)的“骨架”。

商湯絕影在純視覺(jué)端到端智能輔助駕駛方案上的技術(shù)積累，可泛化適配至機(jī)器人、機(jī)器狗等硬件設(shè)備，讓機(jī)器人在更多樣的環(huán)境中實(shí)現(xiàn)精準(zhǔn)路徑規(guī)劃與導(dǎo)航。

同樣，無(wú)論是在綠化小路中四足奔走的、體型較小的機(jī)器狗還是行駛在城區(qū)正常車(chē)道的自動(dòng)駕駛車(chē)輛都在實(shí)現(xiàn)精準(zhǔn)路徑規(guī)劃與導(dǎo)航的同時(shí)，準(zhǔn)確地進(jìn)行了自動(dòng)避障。

交互是機(jī)器與現(xiàn)實(shí)世界連接的橋梁。

基于“日日新”大模型的技術(shù)積累與不斷迭代，“悟能”具身智能平臺(tái)可以賦能機(jī)器人具備和現(xiàn)實(shí)世界的交互能力，具備有溫度、有深度、長(zhǎng)記憶、超穩(wěn)定等能力亮點(diǎn)。

以AI生成的《長(zhǎng)安的荔枝》電影介紹PPT為例，由“悟能”具身智能平臺(tái)賦能的人形機(jī)器人，能夠以各種風(fēng)趣幽默、嚴(yán)謹(jǐn)務(wù)實(shí)等各種語(yǔ)言風(fēng)格進(jìn)行生動(dòng)講解。

同時(shí)，它還可以自動(dòng)翻頁(yè)，實(shí)時(shí)響應(yīng)用戶(hù)提問(wèn)，敏銳捕捉用戶(hù)意圖，期間用戶(hù)打斷提問(wèn)，它完成提問(wèn)后還能回歸繼續(xù)講解。

它還能結(jié)合長(zhǎng)記憶能力進(jìn)行階段性回顧歷史用戶(hù)提問(wèn)，作出小結(jié)，即便遇到嘈雜環(huán)境也能輕松應(yīng)對(duì)。

商湯“悟能”具身智能平臺(tái)可廣泛適配包括汽車(chē)、機(jī)器人在內(nèi)的各類(lèi)終端，實(shí)現(xiàn)空間層面的現(xiàn)實(shí)世界互動(dòng)。

構(gòu)建4D真實(shí)世界

為機(jī)器進(jìn)化提供高質(zhì)量現(xiàn)實(shí)世界數(shù)據(jù)

基于強(qiáng)大的多模態(tài)深度理解能力，商湯“開(kāi)悟”世界模型具備合理的空間一致性和時(shí)間一致性，可生成高質(zhì)量數(shù)據(jù)，有效提升具身智能等終端設(shè)備的智能水平。

“開(kāi)悟”世界模型能夠僅憑自然語(yǔ)言描述，即可生成逼真的七路攝像頭視角模擬數(shù)據(jù)，且不同視角下的幾何位置高度對(duì)應(yīng)，完全符合物理世界的規(guī)律。

“開(kāi)悟”世界模型還能夠編輯真實(shí)世界，可對(duì)現(xiàn)實(shí)世界中的車(chē)輛等場(chǎng)景元素進(jìn)行替換、刪除、增補(bǔ)，創(chuàng)造更加多樣的現(xiàn)實(shí)場(chǎng)景。

小汽車(chē)變成小貨車(chē)↓

“天降”公共汽車(chē)↓

基于強(qiáng)大的生成和編輯能力，“開(kāi)悟”世界模型可以精準(zhǔn)模擬方向盤(pán)、剎車(chē)和油門(mén)控制，帶來(lái)如同在真實(shí)的街道場(chǎng)景中玩“極品飛車(chē)”的效果，讓機(jī)器在現(xiàn)實(shí)世界中自由探索。

到了具身世界，發(fā)揮空間則更大。

相較于智能汽車(chē)，機(jī)器人適用和覆蓋的場(chǎng)景更加廣泛，能夠通過(guò)主動(dòng)探索生成更多高質(zhì)量的現(xiàn)實(shí)世界數(shù)據(jù)，在具身智能數(shù)據(jù)匱乏的當(dāng)前環(huán)境下，可通過(guò)構(gòu)建面向人、物、場(chǎng)的4D真實(shí)世界，突破模型泛化能力的邊界。

具身世界模型讓用戶(hù)僅需要輸入簡(jiǎn)單的提示詞，就能自主進(jìn)行位姿、動(dòng)作骨架和指令的生成，讓機(jī)器人動(dòng)作更合理。