宇树开源 UnifoLM-WMA-0
9月15日,宇树开源 UnifoLM系列下的世界模型-动作(WMA)架构—— UnifoLM-WMA-0。
UnifoLM-WMA-0 是宇树科技跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计。其核心成分在于一个可以理解机器人与环境交互物理规律的世界模型。
在宇树公布的视频演示中,基于该模型的机器人可执行多种复杂任务,示例如下:(右上角小窗口为世界模型对未来动作的视频预测)
叠放木块:按红黄绿顺序操作,抓握木块两侧时微调角度、控制力度,确保红色木块底面对齐桌面特定区域,黄、绿色木块依次对齐下方木块顶面以防倾斜;
整理物品:先分辨桌面散落的橡皮与笔,再按盒子分区放置(橡皮放右侧小收纳区、笔放上方大空间),最后合上盒子;
放置相机:先确定黑色小相机的放置方向,再将其放入包装盒凹槽,最后按特定方向盖盖子,展现较强的环境交互与预测能力。
据悉,该世界模型具备两大核心功能:仿真引擎以及策略增强。
◎仿真引擎:以交互式仿真器的形式运行,核心产出是为机器人学习提供合成数据,解决真实场景数据获取难的问题;
◎策略增强:可与 “动作头” 直接对接,通过世界模型预测机器人与物理世界的未来交互过程,进一步优化决策性能,提升动作的准确性。
同时, 宇树提出了一种基于世界模型的策略架构,该方案中的世界模型支持两种运行模式:决策模式以及仿真模式。
◎决策模式:主要聚焦“动作生成前的辅助”,通过预测未来物理交互信息,为策略模块提供参考,辅助其生成符合场景需求的动作;
◎仿真模式:主要聚焦“动作执行后的反馈”,基于机器人已执行的动作,生成高保真的环境反馈,模拟真实场景下的交互结果。
完整的系统架构及其工作流程如下:
基于此,世界模型通过两大核心功能以及两种运行模式形成“预测-执行-反馈”的学习闭环,帮助机器人持续迭代优化,最终支撑“通用机器人学习”的目标。
为让模型适配机器人作业场景并实现核心能力,UnifoLM-WMA-0分“微调”和“训练”两个阶段,使用两类不同数据集。
在“微调”阶段,宇树会对Open-X数据集上的视频生成模型进行微调,使其适配机器人作业场景。使视频生成模型能接收“图像+文本指令”输入,输出“与文本指令对应的未来动作视频”。
微调模型在测试集上的生成效果如下:
Open-X数据集的核心价值是“场景适配”,需先通过微调让通用视频生成模型适应机器人作业场景,比如理解机器人动作与环境的交互逻辑。
而在“训练”阶段,宇树是在五个开源数据集上训练了模型,实现核心能力。确保模型具备“交互可控生成”和“长程任务持续交互生成”的关键能力。
具体来看,UnifoLM-WMA-0在动作生成上具备两大核心能力:
◎动作可控生成能力:模型作为仿真引擎,可根据“当前图像”及“一定数量的未来机器人动作”,精准生成对应的交互视频,实现“动作可控”。
生成结果与原始视频之间的比较如下所示:
作为生成动作的基础参考,“当前图像”为模型提供场景初始状态(如物体位置、环境布局);“未来机器人动作”(如8个、16个动作)为模型提供“动作目标序列”,限定生成内容的方向,确保生成结果可控。适用于需要精准控制动作序列的机器人任务。
◎长期交互生成能力:突破短动作序列限制,支持长程任务的持续交互生成,输出连贯、符合物理规律的长期动作。
生成结果与原始视频之间的比较如下所示:
项目主页:
https://unigen-x.github.io/unifolm-world-model-action.github.io/
开源代码网址:
https://github.com/unitreerobotics/unifolm-world-model-action













沪公网安备31010702008139