宇树正在补齐自己的短板。
2025年8月的世界机器人大会上,王兴兴指出了VLA模型的种种不足,一度引起行业内的广泛讨论。王兴兴认为,
对于VLA模型,目前在真实世界交互中,数据采集的质量和数量都不足,即便在VLA模型基础上加入Reinforcement Learning(强化学习训练),仍不够用,模型本身还需要进一步升级和优化。
此言论一出,立即受到其他从业者的隔空回应,称现在机器人缺的是一个好的身体。更有甚者直接回怼,只会跳舞的机器人有什么用。
不过五个月后,这一结论迎来了反转。1月29日晚间,宇树科技宣布开源其UnifoLM-VLA-0模型。不仅表明王兴兴发表此言论并非臆断,同时也向外界展示了其模型实力。
项目主页:https://unigen-x.github.io/unifolm-vla.github.io/
开源代码网址:https://github.com/unitreerobotics/unifolm-vla
01.
UnifoLM-VLA-0
宇树提到,UnifoLM-VLA-0是UnifoLM系列下面向通用人形机器人的VLA模型。
该模型基于基于Qwen2.5-VL-7B开源模型构建,实现覆盖机器人与通用场景的多任务数据集,并开展持续预训练。该数据集涵盖2D检测与分割、任务层级分解、3D目标检测、空间位置推理及轨迹预测等多维数据,有效提升了模型对几何空间与语义逻辑的对齐能力。
针对操作类任务,宇树科技对开源数据集进行了系统化清洗,最终仅利用约340小时的真机数据,进行离散动作的预测训练。
在此基础上,模型集成了动作分块预测,以及前向与逆向动力学约束,实现对动作序列的统一建模,从而使 VLM具备对机器人与物体物理交互规律的深度理解能力,并支持长时序动作规划与决策。
UnifoLM-VLA-0在多类场景任务下展现出显著增强的空间推理能力与可靠的多模态感知性能。尤其在任务推理方面,可以根据文本推理目标物体和位置并生成移动轨迹。
02.
评测结果
首先在空间感知与理解能力上较 Qwen2.5-VL-7B有显著提升,并且在“no thinking”模式下可比肩Gemini-Robotics-ER 1.5。
在仿真环境与真机实验的多任务训练验证方面,结果显示该模型具备单模型处理多任务的通用能力,在 LIBERO 仿真基准测试中,UnifoLM-VLA-0的多任务模型取得了接近最优的性能。
在真机实验方面,在宇树G1人形机器人平台上,宇树构建了覆盖12类复杂操作任务的高质量真机数据集,并基于此对UnifoLM-VLA-0进行单一策略网络的统一端到端训练。真机实验结果表明,该模型能够在同一策略checkpoint下,稳定完成全部12项任务,在外部扰动条件下仍保持良好的执行鲁棒性与抗干扰能力。













沪公网安备31010702008139