地平線具身智能算法H-RDT斬獲CVPR 2025 RoboTwin真機(jī)賽冠軍

作者：集小微 7小時(shí)前

來源：地平線HorizonRobotics #地平線# #機(jī)器人# #AI#

2356

近日，在計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域頂級會(huì)議CVPR 2025舉辦的RoboTwin雙臂機(jī)器人競賽中，地平線機(jī)器人實(shí)驗(yàn)室與清華大學(xué)計(jì)算機(jī)系朱軍團(tuán)隊(duì)聯(lián)合提出的H-RDT憑強(qiáng)大性能和領(lǐng)先成功率，一舉斬獲真機(jī)賽冠軍（一等獎(jiǎng)第一名），并在仿真賽中榮獲亞軍（一等獎(jiǎng)第二名），為全球機(jī)器人學(xué)習(xí)領(lǐng)域提供了高效解法。

作為全球人工智能領(lǐng)域最具影響力的頂級會(huì)議之一，CVPR每年匯聚學(xué)術(shù)界與工業(yè)界的最新研究成果，引領(lǐng)計(jì)算機(jī)視覺發(fā)展前沿。2025年CVPR中的第二屆MEIS研討會(huì)以“生成式人工智能時(shí)代的多智能體具身系統(tǒng)”為焦點(diǎn)，發(fā)起并舉辦了RoboTwin雙臂協(xié)作挑戰(zhàn)賽，成為全球首個(gè)專注于“建圖-感知-操作”全鏈條能力的權(quán)威機(jī)器人競賽，吸引了全球眾多科研團(tuán)隊(duì)參與。

比賽聚焦于雙臂機(jī)器人的復(fù)雜操作能力，要求參賽模型在仿真與真實(shí)環(huán)境中完成一系列高難度任務(wù)，包括但不限于柔性物體操作、空間推理、雙手協(xié)作等，全面評估機(jī)器人的智能水平與操作精度。在真機(jī)賽環(huán)節(jié)，機(jī)器人需在真實(shí)世界中完成指定任務(wù)，如疊毛巾、精準(zhǔn)放置物品等，對模型的泛化能力、環(huán)境適應(yīng)性和操作穩(wěn)定性提出了極高要求。仿真賽則側(cè)重于模型在虛擬環(huán)境中的多任務(wù)處理能力。

面對通用機(jī)器人操作數(shù)據(jù)的規(guī)模與泛化問題，地平線機(jī)器人實(shí)驗(yàn)室聯(lián)合清華大學(xué)計(jì)算機(jī)系朱軍教授團(tuán)隊(duì)提出了從海量人類操作數(shù)據(jù)中學(xué)習(xí)的VLA模型H-RDT (Human to Robotics Diffusion Transformer) ，能夠利用帶有3D手部位姿標(biāo)注的人類操作視頻增強(qiáng)機(jī)器人操作能力，為通用機(jī)器人操作技能的規(guī)模化學(xué)習(xí)提供了新范式。

（點(diǎn)擊文末“閱讀原文”可獲取論文鏈接）

技術(shù)和架構(gòu)創(chuàng)新，實(shí)現(xiàn)跨本體遷移與高效動(dòng)作生成

不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難，現(xiàn)有數(shù)據(jù)集規(guī)模有限且質(zhì)量參差不齊。這些問題從根本上制約了通用機(jī)器人操作數(shù)據(jù)的規(guī)模與泛化能力。

H-RDT模型采用獨(dú)特的兩階段訓(xùn)練范式用于實(shí)現(xiàn)跨本體部署。首先在大規(guī)模第一人稱人類操作數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，構(gòu)建共享動(dòng)作表征空間；隨后通過模塊化動(dòng)作編解碼器在機(jī)器人數(shù)據(jù)上進(jìn)行微調(diào)，實(shí)現(xiàn)跨本體遷移。這一設(shè)計(jì)有效解決了不同機(jī)器人本體和動(dòng)作空間差異導(dǎo)致的統(tǒng)一訓(xùn)練難題，顯著提升了模型的泛化能力。

在架構(gòu)方面，H-RDT基于一個(gè)具有20億參數(shù)的擴(kuò)散Transformer架構(gòu)，配備專門的動(dòng)作編碼器和解碼器，利用流匹配方法建模復(fù)雜的動(dòng)作分布，實(shí)現(xiàn)了更優(yōu)的訓(xùn)練穩(wěn)定性與推理效率。為解決人類與機(jī)器人之間的差異，團(tuán)隊(duì)采用了精細(xì)的3D手部姿態(tài)表示方法，將動(dòng)作編碼為緊湊的48維向量，以捕捉關(guān)鍵的雙手靈巧操作信息，為機(jī)器人操作提供了豐富的“上層動(dòng)作空間”指導(dǎo)，顯著提升了策略的泛化能力，有效緩解了不同機(jī)器人之間的差異問題。

在真機(jī)實(shí)驗(yàn)中，H-RDT模型在Aloha-Agilex-2.0、雙臂ARX5、UR5+UMI三種真機(jī)設(shè)置上展現(xiàn)了領(lǐng)先的性能和出色的跨本體遷移能力。下面4個(gè)表格給出了詳細(xì)的測試指標(biāo)。

表1 H-RDT在Agilex2.0真機(jī)疊毛巾任務(wù)中的表現(xiàn)

表2 H-RDT在Agilex2.0真機(jī)掛杯子任務(wù)中的表現(xiàn)

表3 H-RDT在ARX5真機(jī)少樣本實(shí)驗(yàn)中表現(xiàn)出優(yōu)越的樣本利用效率

表4 H-RDT在雙UR5+UMI真機(jī)實(shí)驗(yàn)中在每個(gè)子任務(wù)上都表現(xiàn)出優(yōu)越的性能

在仿真實(shí)驗(yàn)中，H-RDT在RoboTwin 2.0基準(zhǔn)測試的45項(xiàng)任務(wù)上取得了87.2%的平均成功率，顯著優(yōu)于RDT、π0等基線方法，證明了其在多任務(wù)處理中的領(lǐng)先優(yōu)勢。

優(yōu)異的實(shí)驗(yàn)結(jié)果充分驗(yàn)證了H-RDT模型的技術(shù)先進(jìn)性和實(shí)用性，為其在實(shí)際應(yīng)用中的推廣奠定了堅(jiān)實(shí)基礎(chǔ)。

前景廣闊，H-RDT模型賦能多領(lǐng)域智能化升級

H-RDT模型的成功，為機(jī)器人學(xué)習(xí)領(lǐng)域提供了新的研究思路與技術(shù)路徑。通過利用海量人類操作數(shù)據(jù)預(yù)訓(xùn)練，H-RDT模型能有效緩解大規(guī)模高質(zhì)量機(jī)器人演示數(shù)據(jù)稀缺的問題，為通用機(jī)器人操作數(shù)據(jù)的規(guī)模與泛化能力提升開辟了新途徑。這一創(chuàng)新方法不僅在學(xué)術(shù)上取得了突破，更在具身智能技術(shù)的實(shí)際應(yīng)用中展現(xiàn)了巨大潛力。

H-RDT模型的跨本體遷移能力與少樣本學(xué)習(xí)效率，為機(jī)器人在不同場景下的快速適應(yīng)與高效操作提供了可能，有望推動(dòng)智能家居、工業(yè)制造、醫(yī)療護(hù)理等多領(lǐng)域的智能化應(yīng)用升級。

作為機(jī)器人產(chǎn)業(yè)界的重要推動(dòng)者之一，地平線在人工智能學(xué)習(xí)領(lǐng)域積累了深厚的技術(shù)底蘊(yùn)，展現(xiàn)出強(qiáng)大的創(chuàng)新能力。早在2023年，由地平線學(xué)者作為一作公開發(fā)表的業(yè)界首個(gè)端到端自動(dòng)駕駛大模型UniAD，便榮獲CVPR 2023最佳論文獎(jiǎng)，現(xiàn)已成為行業(yè)端到端技術(shù)的Benchmark。而此次H-RDT模型在CVPR 2025 RoboTwin雙臂機(jī)器人競賽中的出色表現(xiàn)，更是地平線在人工智能領(lǐng)域持續(xù)深耕、不斷突破的又一有力見證。

地平線認(rèn)為：“真正的智能是說每一輛車、每一個(gè)電器都具有環(huán)境感知、人機(jī)交互和決策控制的能力”。隨著技術(shù)成熟與應(yīng)用深化，以H-RDT模型為代表的創(chuàng)新技術(shù)將助力具身智能技術(shù)拓展更廣泛的發(fā)展與應(yīng)用。未來，地平線將繼續(xù)秉承創(chuàng)新驅(qū)動(dòng)發(fā)展的理念，堅(jiān)持“賦能智能汽車和機(jī)器人，讓人類生活更安全、更美好”的愿景，加大在機(jī)器人和智能汽車領(lǐng)域的技術(shù)研發(fā)投入，不斷探索新技術(shù)、新應(yīng)用，為推動(dòng)全球智能化技術(shù)普惠貢獻(xiàn)更多力量，真正實(shí)現(xiàn)“讓機(jī)器的歸機(jī)器，人的歸人”。