8月9日,宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術官王興興在2025世界機器人大會主論壇上發(fā)表了題為《機器人產業(yè)規(guī)?;臋C遇與挑戰(zhàn)》的主旨演講。王興興表示,當前智能體機器人的整機硬件已經夠用,最關鍵的挑戰(zhàn)是模型問題而非數據問題。機器人大模型的臨界點或將在未來3-5年的時間到來。
當前,全球機器人在技術加速融合、多國政策支持與投資加碼等因素驅動下,市場持續(xù)擴張,特斯拉、蘋果、英偉達、Meta、Open AI等全球頭部科技企業(yè)紛紛發(fā)力布局。王興興指出,在需求端拉下整個機器人行業(yè)快速增長。2025上半年,機器人整機廠商以及零部件廠商的平均市場增速達50%-100%。
就智能體機器人的整機硬件發(fā)展情況來看,王興興認為,目前包括人形機器人硬件、靈巧手整機等硬件雖然不是非常完美與成熟,但在當下發(fā)展階段已經足夠用了;未來在硬件層面主要是需要持續(xù)完善硬件細節(jié),降低成本,增加使用壽命與可靠性等。
王興興強調,智能體機器人當下和未來所面臨的最關鍵挑戰(zhàn)是機器人大模型,這也是限制人形機器人大規(guī)模應用的最大阻礙。
目前機器人大模型的發(fā)展進度類似于當時ChatGPT發(fā)布前1年-3年的那個階段。目前業(yè)界已經發(fā)現(xiàn)了類似的方向以及技術路線,但還沒人真正將其做出來。
機器人大模型的“ChatGPT”時刻何時到來?王興興認為標志性的臨界點是機器人能在完全陌生環(huán)境中聽懂指令并流暢執(zhí)行任務。比如以下場景:未來有一天,人形機器人來到一個它之前從未見過的全新會場,在“將一瓶水傳遞給某位觀眾”的指令下,機器人可以順暢地完成這件事;或者來到一個完全陌生的新房間,可以成功地根據指令去整理好房間。王興興表示,這一臨界點最快可能在未來的1-2年實現(xiàn),慢的話可能需要3-5年。
“之所以目前機器人還未能達到上述效果,現(xiàn)在最大的問題是模型問題,而不是數據問題?!蓖跖d興認為,目前全球范圍內大家對于數據方面的關注度一定程度上是偏高的,反而不夠關注模型問題。
談及當前最火的具身智能模型——VLA模型(Vision-Language-Action Model,即視覺-語言-動作模型),王興興認為,目前VLA模型的實用性尚存在局限。VLA模型在對真實世界交互的時候,其數據質量實際上是不太夠用的。即便是在RL(強化學習)的加持下,該模型架構依然需要繼續(xù)去進行升級和優(yōu)化。
“世界模型”是邁向通用人工智能(AGI)的重要階梯,其通過學習環(huán)境的時空動態(tài),不僅預測未來狀態(tài),還能評估自身行動的后果。以谷歌DeepMind于8月6日發(fā)布的第三代通用世界模型Genie 3為例,在AI訓練應用場景中,它可以為機器人等智能體提供低成本虛擬訓練環(huán)境,支持復雜任務的長時程模擬。王興興認為這一路線值得關注,世界模型可能會比VLA模型更快落地。此外,機器人學習新技能需從頭訓練,無法復用舊知識,亟需實現(xiàn)類似大模型的持續(xù)學習能力。
關于未來2年~5年智能機器人技術的發(fā)展重心,王興興總結了以下幾點:
一是統(tǒng)一端到端智能機器人大模型。二是更低成本、更高壽命的硬件,以及超大批量的制造。三是實現(xiàn)低成本、大規(guī)模算力,尤其是分布式算力。
最后,王興興強調,機器人行業(yè)是一個需要全球共創(chuàng)的領域,國內外企業(yè)都在做出自己的貢獻。正如在AI領域一樣,沒有哪一家公司能夠保證會擁有足夠的人才、足夠的資源去讓自己在AI領域一直領先。