近日,在計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域頂級會(huì)議CVPR 2025舉辦的RoboTwin雙臂機(jī)器人競賽中,地平線機(jī)器人實(shí)驗(yàn)室與清華大學(xué)計(jì)算機(jī)系朱軍團(tuán)隊(duì)聯(lián)合提出的H-RDT憑強(qiáng)大性能和領(lǐng)先成功率,一舉斬獲真機(jī)賽冠軍(一等獎(jiǎng)第一名),并在仿真賽中榮獲亞軍(一等獎(jiǎng)第二名),為全球機(jī)器人學(xué)習(xí)領(lǐng)域提供了高效解法。
作為全球人工智能領(lǐng)域最具影響力的頂級會(huì)議之一,CVPR每年匯聚學(xué)術(shù)界與工業(yè)界的最新研究成果,引領(lǐng)計(jì)算機(jī)視覺發(fā)展前沿。2025年CVPR中的第二屆MEIS研討會(huì)以“生成式人工智能時(shí)代的多智能體具身系統(tǒng)”為焦點(diǎn),發(fā)起并舉辦了RoboTwin雙臂協(xié)作挑戰(zhàn)賽,成為全球首個(gè)專注于“建圖-感知-操作”全鏈條能力的權(quán)威機(jī)器人競賽,吸引了全球眾多科研團(tuán)隊(duì)參與。
比賽聚焦于雙臂機(jī)器人的復(fù)雜操作能力,要求參賽模型在仿真與真實(shí)環(huán)境中完成一系列高難度任務(wù),包括但不限于柔性物體操作、空間推理、雙手協(xié)作等,全面評估機(jī)器人的智能水平與操作精度。在真機(jī)賽環(huán)節(jié),機(jī)器人需在真實(shí)世界中完成指定任務(wù),如疊毛巾、精準(zhǔn)放置物品等,對模型的泛化能力、環(huán)境適應(yīng)性和操作穩(wěn)定性提出了極高要求。仿真賽則側(cè)重于模型在虛擬環(huán)境中的多任務(wù)處理能力。
面對通用機(jī)器人操作數(shù)據(jù)的規(guī)模與泛化問題,地平線機(jī)器人實(shí)驗(yàn)室聯(lián)合清華大學(xué)計(jì)算機(jī)系朱軍教授團(tuán)隊(duì)提出了從海量人類操作數(shù)據(jù)中學(xué)習(xí)的VLA模型H-RDT (Human to Robotics Diffusion Transformer) ,能夠利用帶有3D手部位姿標(biāo)注的人類操作視頻增強(qiáng)機(jī)器人操作能力,為通用機(jī)器人操作技能的規(guī)模化學(xué)習(xí)提供了新范式。
(點(diǎn)擊文末“閱讀原文”可獲取論文鏈接)
技術(shù)和架構(gòu)創(chuàng)新,實(shí)現(xiàn)跨本體遷移與高效動(dòng)作生成
不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難,現(xiàn)有數(shù)據(jù)集規(guī)模有限且質(zhì)量參差不齊。這些問題從根本上制約了通用機(jī)器人操作數(shù)據(jù)的規(guī)模與泛化能力。
H-RDT模型采用獨(dú)特的兩階段訓(xùn)練范式用于實(shí)現(xiàn)跨本體部署。首先在大規(guī)模第一人稱人類操作數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,構(gòu)建共享動(dòng)作表征空間;隨后通過模塊化動(dòng)作編解碼器在機(jī)器人數(shù)據(jù)上進(jìn)行微調(diào),實(shí)現(xiàn)跨本體遷移。這一設(shè)計(jì)有效解決了不同機(jī)器人本體和動(dòng)作空間差異導(dǎo)致的統(tǒng)一訓(xùn)練難題,顯著提升了模型的泛化能力。
在架構(gòu)方面,H-RDT基于一個(gè)具有20億參數(shù)的擴(kuò)散Transformer架構(gòu),配備專門的動(dòng)作編碼器和解碼器,利用流匹配方法建模復(fù)雜的動(dòng)作分布,實(shí)現(xiàn)了更優(yōu)的訓(xùn)練穩(wěn)定性與推理效率。為解決人類與機(jī)器人之間的差異,團(tuán)隊(duì)采用了精細(xì)的3D手部姿態(tài)表示方法,將動(dòng)作編碼為緊湊的48維向量,以捕捉關(guān)鍵的雙手靈巧操作信息,為機(jī)器人操作提供了豐富的“上層動(dòng)作空間”指導(dǎo),顯著提升了策略的泛化能力,有效緩解了不同機(jī)器人之間的差異問題。
在真機(jī)實(shí)驗(yàn)中,H-RDT模型在Aloha-Agilex-2.0、雙臂ARX5、UR5+UMI三種真機(jī)設(shè)置上展現(xiàn)了領(lǐng)先的性能和出色的跨本體遷移能力。下面4個(gè)表格給出了詳細(xì)的測試指標(biāo)。
表1 H-RDT在Agilex2.0真機(jī)疊毛巾任務(wù)中的表現(xiàn)
表2 H-RDT在Agilex2.0真機(jī)掛杯子任務(wù)中的表現(xiàn)
表3 H-RDT在ARX5真機(jī)少樣本實(shí)驗(yàn)中表現(xiàn)出優(yōu)越的樣本利用效率
表4 H-RDT在雙UR5+UMI真機(jī)實(shí)驗(yàn)中在每個(gè)子任務(wù)上都表現(xiàn)出優(yōu)越的性能
在仿真實(shí)驗(yàn)中,H-RDT在RoboTwin 2.0基準(zhǔn)測試的45項(xiàng)任務(wù)上取得了87.2%的平均成功率,顯著優(yōu)于RDT、π0等基線方法,證明了其在多任務(wù)處理中的領(lǐng)先優(yōu)勢。
優(yōu)異的實(shí)驗(yàn)結(jié)果充分驗(yàn)證了H-RDT模型的技術(shù)先進(jìn)性和實(shí)用性,為其在實(shí)際應(yīng)用中的推廣奠定了堅(jiān)實(shí)基礎(chǔ)。
前景廣闊,H-RDT模型賦能多領(lǐng)域智能化升級
H-RDT模型的成功,為機(jī)器人學(xué)習(xí)領(lǐng)域提供了新的研究思路與技術(shù)路徑。通過利用海量人類操作數(shù)據(jù)預(yù)訓(xùn)練,H-RDT模型能有效緩解大規(guī)模高質(zhì)量機(jī)器人演示數(shù)據(jù)稀缺的問題,為通用機(jī)器人操作數(shù)據(jù)的規(guī)模與泛化能力提升開辟了新途徑。這一創(chuàng)新方法不僅在學(xué)術(shù)上取得了突破,更在具身智能技術(shù)的實(shí)際應(yīng)用中展現(xiàn)了巨大潛力。
H-RDT模型的跨本體遷移能力與少樣本學(xué)習(xí)效率,為機(jī)器人在不同場景下的快速適應(yīng)與高效操作提供了可能,有望推動(dòng)智能家居、工業(yè)制造、醫(yī)療護(hù)理等多領(lǐng)域的智能化應(yīng)用升級。
作為機(jī)器人產(chǎn)業(yè)界的重要推動(dòng)者之一,地平線在人工智能學(xué)習(xí)領(lǐng)域積累了深厚的技術(shù)底蘊(yùn),展現(xiàn)出強(qiáng)大的創(chuàng)新能力。早在2023年,由地平線學(xué)者作為一作公開發(fā)表的業(yè)界首個(gè)端到端自動(dòng)駕駛大模型UniAD,便榮獲CVPR 2023最佳論文獎(jiǎng),現(xiàn)已成為行業(yè)端到端技術(shù)的Benchmark。而此次H-RDT模型在CVPR 2025 RoboTwin雙臂機(jī)器人競賽中的出色表現(xiàn),更是地平線在人工智能領(lǐng)域持續(xù)深耕、不斷突破的又一有力見證。
地平線認(rèn)為:“真正的智能是說每一輛車、每一個(gè)電器都具有環(huán)境感知、人機(jī)交互和決策控制的能力”。隨著技術(shù)成熟與應(yīng)用深化,以H-RDT模型為代表的創(chuàng)新技術(shù)將助力具身智能技術(shù)拓展更廣泛的發(fā)展與應(yīng)用。未來,地平線將繼續(xù)秉承創(chuàng)新驅(qū)動(dòng)發(fā)展的理念,堅(jiān)持“賦能智能汽車和機(jī)器人,讓人類生活更安全、更美好”的愿景,加大在機(jī)器人和智能汽車領(lǐng)域的技術(shù)研發(fā)投入,不斷探索新技術(shù)、新應(yīng)用,為推動(dòng)全球智能化技術(shù)普惠貢獻(xiàn)更多力量,真正實(shí)現(xiàn)“讓機(jī)器的歸機(jī)器,人的歸人”。