概述
具身智能的發(fā)展離不開高質量、多樣化的可交互3D仿真環(huán)境。為突破傳統(tǒng)構建方式的瓶頸,我們提出了EmbodiedGen,一個基于生成式AI技術的自動化3D世界生成引擎,助力低成本、高效率地創(chuàng)建真實且可交互的3D場景。用戶僅需輸入任務定義或場景圖像,即可自動化生成多樣化、可交互的3D世界。
為了解決傳統(tǒng)機器人仿真環(huán)境因高度依賴人工建模,所導致的高成本、低效率瓶頸,我們提出EmbodiedGen,面向具身智能的可交互3D世界的生成式平臺。系統(tǒng)通過多模態(tài)Agent (Scene Designer) 智能解析用戶輸入的場景圖像或任務文本描述,自動化生成符合交互規(guī)則與任務流程的結構化布局 (Scene Graph) ,實現高度定制化的場景設計。基于布局藍圖智能調用資產生成模塊,高效生成物理合理的多樣性3D資產:圖像生成3D(從圖像生成物理真實的3D資產),文本生成3D(從自然語言生成3D資產),活動關節(jié)物體生成(從雙狀態(tài)圖像生成可活動的3D資產),紋理生成編輯(多風格的3D紋理生成與編輯),場景生成(多樣化3D環(huán)境背景生成)。最終輸出高保真的可交互3D世界,為機器人感知-決策-執(zhí)行閉環(huán)提供物理精確的仿真環(huán)境。
單圖生成物理真實3D資產
賦能高保真數字孿生
核心能力:
生成的3D資產具有業(yè)界領先的幾何質量,真實物理屬性、水密性與簡化網格,可無縫導入多種仿真器中使用;
自動標注語義與質檢標簽,包括資產描述、紋理美學打分、前景提取質量檢驗與幾何質量校驗等;
消除紋理高光,結合法線信息多視角融合,輸出2K分辨率紋理,細節(jié)更精致。
自然語言生成3D資產
資產庫規(guī)?;统杀緲嫿?/p>
核心能力:
支持通過自然語言描述(中&英)生成具備語義一致性、物理真實性的3D資產;
通過Agent系統(tǒng)智能拆解復雜生成需求(如“生成100種風格的杯子”)為不同的風格與形狀描述,并通過質檢標簽自動篩選出視覺效果美觀并且物理幾何合理3D物體資產。
活動關節(jié)物體生成
雙狀態(tài)圖像構建可活動3D資產
核心能力:
支持櫥柜、抽屜等常見活動關節(jié)物體的生成,捕捉幾何結構的同時建模部件之間的連接關系與運動行為;
采用擴散模型實現高質量的可控生成,通過雙狀態(tài)消除運動歧義,準確建模物體的關節(jié)關系;
輸出的3D物體資產具備物理合理性,適用于交互式仿真環(huán)境中的操作與交互,詳見我們發(fā)表的另一篇工作 DIPO。
紋理生成與編輯
3D資產視覺風格化增廣
核心能力:
支持以3D網格和文本描述為輸入,生成語義一致、幾何視角一致的高質量2K分辨率紋理;
采用可插拔的可學習模塊,將社區(qū)文生圖基礎模型能力遷移到3D紋理生成,最小化再訓練成本;
輸出資產紋理清晰、風格豐富,具備真實感與藝術表現力,支持3D文字紋理生成。
多樣性場景生成
幾何一致的背景3D資產
核心能力:
自然語言或圖像輸入,生成語義一致、結構合理、尺度真實的3D場景資產;
良好的可擴展性,主要包括全景圖像生成、3D場景生成&迭代補全與尺度坐標對齊三個模塊;
輸出場景包含3D網格與3DGS兩種表達,可作為機器人仿真中的背景資產。
任務驅動的布局生成
構建可交互3D世界藍圖
核心能力:
支持輸入自然語言任務描述(如"Franka robotic arm picks shoes")或圖片,一鍵生成語義合理、結構完整的3D可交互世界;
采用多叉樹結構表達3D世界布局藍圖,節(jié)點為3D資產描述,邊表示父子從屬關系與空間布局關系;
利用LLM實現低代碼布局搭建,結合物理引擎求解穩(wěn)態(tài)位姿,確保物理可行與交互合理。
具身智能應用
EmbodiedGen以生成式AI重構3D世界構建范式,低成本生成幾何精確、渲染真實的仿真資產(網格+3DGS混合表示),可快速導入仿真引擎,支撐機器人感知-決策-執(zhí)行全流程閉環(huán),賦能仿真數據生成與算法閉環(huán)評測等核心應用,包括以下具體示例:
通過EmbodiedGen構建物理精確數字孿生,在MuJoCo仿真環(huán)境中進行動態(tài)交互仿真。
通過EmbodiedGen生成待評測3D資產,并在Isaac中對操作模型性能進行仿真評測。
通過EmbodiedGen編輯物體紋理,生成多樣性場景,對RoboTwin搭建的操作任務進行數據資產增廣。
通過EmbodiedGen生成3D物體資產,用于OpenAI Gym中的導航及避障任務仿真。
總結與展望
EmbodiedGen通過整合圖像、文本等多模態(tài)輸入,打通從單體資產生成到物理真實的可交互式3D世界構建的全流程。模塊化設計與生成式AI的深度融合,提高具身智能數據獲取效率與仿真環(huán)境多樣性。未來,EmbodiedGen將作為開放平臺持續(xù)演進,助力通用智能體的開發(fā)與評測,推動具身智能從研究走向應用落地。
致謝
EmbodiedGen涉及以下出色的開源模型和項目:
[1] Jianfeng Xiang, et al. TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. arXiv preprint arXiv:2412.01506.
[2] Tencent Hunyuan3D Team. Hunyuan3D?Delight?v2.0 Model Card, 2025.
[3] Wu Ruiqi, et al. DIPO: Dual-state images controlled articulated object generation powered by diverse data. arXiv preprint arXiv:2505.20460, 2025.
[4] Kirillov Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.
[5] Daniel Gatis, et al. Rembg: A tool to remove images background. 2022.
[6] Xintao Wang, et al. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. ICCVW, 2021.
[7] Kolors Team. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.
[8] Guo Pu, et al. Pano2Room: Novel View Synthesis from a Single Indoor Panorama. SIGGRAPH Asia 2024.
[9] Feng Mingyuan, et al. Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models. arXiv preprint arXiv:2311.13141, 2023.
[10] Stability AI. Stable Diffusion 3.5 Medium. 2024.
[11] Eftekhar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.
[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.
[13] OpenAI. GPT-4o https://openai.com/index/hello-gpt-4o 2024.