宇樹科技王興興：具身智能機器人的最大挑戰(zhàn)是模型而非數據

作者：集小微 08-09 20:09

來源：中國電子報 #宇樹科技# #王興興#

7259

8月9日，宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術官王興興在2025世界機器人大會主論壇上發(fā)表了題為《機器人產業(yè)規(guī)?；臋C遇與挑戰(zhàn)》的主旨演講。王興興表示，當前智能體機器人的整機硬件已經夠用，最關鍵的挑戰(zhàn)是模型問題而非數據問題。機器人大模型的臨界點或將在未來3-5年的時間到來。

當前，全球機器人在技術加速融合、多國政策支持與投資加碼等因素驅動下，市場持續(xù)擴張，特斯拉、蘋果、英偉達、Meta、Open AI等全球頭部科技企業(yè)紛紛發(fā)力布局。王興興指出，在需求端拉下整個機器人行業(yè)快速增長。2025上半年，機器人整機廠商以及零部件廠商的平均市場增速達50%-100%。

就智能體機器人的整機硬件發(fā)展情況來看，王興興認為，目前包括人形機器人硬件、靈巧手整機等硬件雖然不是非常完美與成熟，但在當下發(fā)展階段已經足夠用了；未來在硬件層面主要是需要持續(xù)完善硬件細節(jié)，降低成本，增加使用壽命與可靠性等。

王興興強調，智能體機器人當下和未來所面臨的最關鍵挑戰(zhàn)是機器人大模型，這也是限制人形機器人大規(guī)模應用的最大阻礙。

目前機器人大模型的發(fā)展進度類似于當時ChatGPT發(fā)布前1年-3年的那個階段。目前業(yè)界已經發(fā)現(xiàn)了類似的方向以及技術路線，但還沒人真正將其做出來。

機器人大模型的“ChatGPT”時刻何時到來？王興興認為標志性的臨界點是機器人能在完全陌生環(huán)境中聽懂指令并流暢執(zhí)行任務。比如以下場景：未來有一天，人形機器人來到一個它之前從未見過的全新會場，在“將一瓶水傳遞給某位觀眾”的指令下，機器人可以順暢地完成這件事；或者來到一個完全陌生的新房間，可以成功地根據指令去整理好房間。王興興表示，這一臨界點最快可能在未來的1-2年實現(xiàn)，慢的話可能需要3-5年。

“之所以目前機器人還未能達到上述效果，現(xiàn)在最大的問題是模型問題，而不是數據問題?！蓖跖d興認為，目前全球范圍內大家對于數據方面的關注度一定程度上是偏高的，反而不夠關注模型問題。

談及當前最火的具身智能模型——VLA模型（Vision-Language-Action Model，即視覺-語言-動作模型），王興興認為，目前VLA模型的實用性尚存在局限。VLA模型在對真實世界交互的時候，其數據質量實際上是不太夠用的。即便是在RL（強化學習）的加持下，該模型架構依然需要繼續(xù)去進行升級和優(yōu)化。

“世界模型”是邁向通用人工智能（AGI）的重要階梯，其通過學習環(huán)境的時空動態(tài)，不僅預測未來狀態(tài)，還能評估自身行動的后果。以谷歌DeepMind于8月6日發(fā)布的第三代通用世界模型Genie 3為例，在AI訓練應用場景中，它可以為機器人等智能體提供低成本虛擬訓練環(huán)境，支持復雜任務的長時程模擬。王興興認為這一路線值得關注，世界模型可能會比VLA模型更快落地。此外，機器人學習新技能需從頭訓練，無法復用舊知識，亟需實現(xiàn)類似大模型的持續(xù)學習能力。

關于未來2年~5年智能機器人技術的發(fā)展重心，王興興總結了以下幾點：

一是統(tǒng)一端到端智能機器人大模型。二是更低成本、更高壽命的硬件，以及超大批量的制造。三是實現(xiàn)低成本、大規(guī)模算力，尤其是分布式算力。

最后，王興興強調，機器人行業(yè)是一個需要全球共創(chuàng)的領域，國內外企業(yè)都在做出自己的貢獻。正如在AI領域一樣，沒有哪一家公司能夠保證會擁有足夠的人才、足夠的資源去讓自己在AI領域一直領先。