4月1日,由中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院(賽迪研究院)、工業(yè)和信息化部新型工業(yè)化研究中心主辦的2025賽迪論壇在京舉辦。杭州宇樹(shù)科技有限公司副總經(jīng)理王啟舟在主論壇發(fā)表主旨演講。他表示,具身智能的發(fā)展進(jìn)程與人形機(jī)器人的迭代息息相關(guān),這也是產(chǎn)業(yè)和學(xué)術(shù)界關(guān)注的熱點(diǎn)課題,但目前仍然沒(méi)有實(shí)體能夠?qū)崿F(xiàn)具身大模型的底層突破。
在王啟舟看來(lái),人形機(jī)器人的發(fā)展與人工智能的發(fā)展息息相關(guān)。
他回顧了人工智能發(fā)展歷程,強(qiáng)調(diào)了其中幾個(gè)具有歷史意義的時(shí)間節(jié)點(diǎn)。在推理上,1962年,機(jī)器戰(zhàn)勝全美最強(qiáng)跳棋手羅伯特·尼雷;1997年,“深藍(lán)”擊敗了國(guó)際象棋大師卡斯帕羅夫;2016年,AlphaGo戰(zhàn)勝了圍棋選手李世石。在此進(jìn)程中,狀態(tài)空間復(fù)雜度實(shí)現(xiàn)了指數(shù)級(jí)增長(zhǎng)。其實(shí)人形機(jī)器人的發(fā)展也得益于人工智能技術(shù)的進(jìn)步,在三年前,人形機(jī)器人連站穩(wěn)行走都很苦難。
王啟舟表示,宇樹(shù)科技之所以能在四足機(jī)器人領(lǐng)域?qū)崿F(xiàn)“彎道超車”,也得益于人工智能技術(shù)的發(fā)展。其中,王啟舟著重對(duì)DeepSeek的技術(shù)創(chuàng)新進(jìn)行了剖析??偨Y(jié)來(lái)看,DeepSeek的創(chuàng)新點(diǎn)可以體現(xiàn)在四個(gè)方面:第一是架構(gòu)創(chuàng)新,該模型的推理效率提升了300%,支持模塊化稀疏激活MoE(混合專家模型)架構(gòu),提升了模塊細(xì)粒度;第二是數(shù)據(jù)創(chuàng)新,該模型實(shí)現(xiàn)了高知識(shí)密度的數(shù)據(jù)訓(xùn)練,訓(xùn)練成本僅相當(dāng)于海外知名模型的1/10;第三是算力創(chuàng)新,該模型支持低位寬混合浮點(diǎn)計(jì)算,使內(nèi)存開(kāi)銷削減到海外知名模型的一半;第四是算法創(chuàng)新,該模型取消過(guò)程獎(jiǎng)勵(lì),引導(dǎo)模型思考,利用群體策略減少有監(jiān)督微調(diào)。而這些技術(shù)積累,都幫助企業(yè)在端到端的人形機(jī)器人以及其他類型機(jī)器人實(shí)現(xiàn)新的創(chuàng)新突破。具身智能是與人形機(jī)器人發(fā)展更為相關(guān)的一條技術(shù)路徑,這是人工智能的一個(gè)子課題,但又在人工智能的基礎(chǔ)上做了新的延伸。它融合了視覺(jué)感知、學(xué)習(xí)理解、智能計(jì)算等一系列的智能技術(shù),使智能體即機(jī)器人等智能終端在環(huán)境中具備感知決策和行動(dòng)的能力。
為了更好地理解具身智能的技術(shù)發(fā)展階段和未來(lái)技術(shù)走向,產(chǎn)業(yè)界可以借鑒智能駕駛的評(píng)級(jí)標(biāo)準(zhǔn)來(lái)界定具身智能的能力。當(dāng)前,業(yè)界對(duì)具身智能的發(fā)展階段的評(píng)級(jí)還沒(méi)有完全形成共識(shí),但已經(jīng)有了大致的不同級(jí)別具身智能可實(shí)現(xiàn)的功能分野:L1級(jí)具身智能只能實(shí)現(xiàn)語(yǔ)音交互、信息識(shí)別、簡(jiǎn)單操作和模仿學(xué)習(xí);L2級(jí)具身智能具備數(shù)據(jù)處理、規(guī)律總結(jié)、推理學(xué)習(xí)和行為糾正的能力;L3級(jí)具身智能可具備即時(shí)處理能力;L4級(jí)具身智能具備自主學(xué)習(xí)能力;L5級(jí)具身智能將具備思維決策能力。但截至目前,大多數(shù)機(jī)器人的技術(shù)發(fā)展水平還較為有限,僅處于L1級(jí),或由L1級(jí)向L2級(jí)躍升階段。要實(shí)現(xiàn)更高級(jí)別的發(fā)展,仍需要人工智能技術(shù)、智能感知等技術(shù)的支持。
當(dāng)前具身大模型是全球諸多公司和研究機(jī)構(gòu)追捧的前沿的課題,但仍沒(méi)有公司實(shí)現(xiàn)了底層突破。
王啟舟將宇樹(shù)的機(jī)器人定義為通用機(jī)器人。它依托機(jī)器人硬件實(shí)體,借助機(jī)器人世界模型建立對(duì)世界的理解做功能實(shí)現(xiàn)。所謂的世界模型,是構(gòu)造機(jī)器人對(duì)物理世界有理解能力的模型,包括對(duì)物理規(guī)律、圖像視頻、音頻等,并且結(jié)合模仿學(xué)習(xí)來(lái)學(xué)習(xí)策略,用強(qiáng)化學(xué)習(xí)最后成功收斂到100%可靠控制。
他表示,宇樹(shù)不會(huì)做所有的垂直領(lǐng)域的應(yīng)用,只會(huì)做一些典型的應(yīng)用。在工業(yè)方面宇樹(shù)將提供電機(jī)性能夠強(qiáng)、負(fù)載夠高,具備面向工業(yè)、物流等場(chǎng)景基礎(chǔ)能力的機(jī)器人。其客戶可以在拿到機(jī)器人之后,利用垂直行業(yè)數(shù)據(jù),進(jìn)行相關(guān)場(chǎng)景的模型訓(xùn)練。例如,如果客戶將機(jī)器人用于電動(dòng)汽車生產(chǎn),則機(jī)器人將可能通過(guò)在某工序上持續(xù)訓(xùn)練,逐漸實(shí)現(xiàn)很高的成功率和作業(yè)的質(zhì)量,從而完成這項(xiàng)任務(wù)。
關(guān)于人形機(jī)器人的未來(lái)前景,王啟舟說(shuō)道:“行業(yè)里流傳著一種說(shuō)法——通用機(jī)器人能夠在3—5年內(nèi)率先實(shí)現(xiàn)工業(yè)領(lǐng)域的突破。目前,人形機(jī)器人還不能勝任一些對(duì)精細(xì)度要求比較高的任務(wù),但隨著各項(xiàng)技術(shù)的突破,機(jī)器人也將逐漸適應(yīng)精細(xì)工作的需求,從而能夠勝任各種工業(yè)生產(chǎn)作業(yè)要求?!?/p>