这是一个跨越国界的难题。
英伟达GTC2026期间,宇树科技王兴兴发表了题为“如何迈过具身智能的 ChatGPT 时刻”的主题演讲。明确表示,如今具身智能的ChatGPT时刻还没到来,需要全球不同国界、不同领域的人共同努力。
王兴兴认为,具身智能的ChatGPT时刻需要实现两个“80%”,即“在80%的陌生场景中,通过语音或文字指令,机器人能够顺利完成大约80%的任务”,注意这里的陌生场景指的是具身智能完全没有接触过的场景,更不是已经采取一定程度预训练的场景。
目前具身智能的ChatGPT时刻主要面临三大挑战:
一是如何提高模型对任务的表达能力,突破泛化瓶颈。王兴兴认为当前很多模型的表达能力还没有实现,一个模型只能做一些基础的动作,但对于复杂动作,尤其是奇奇怪怪的动作,当前模型还不能将其生成出来。
二是如何提高模型对多元数据的利用率,增强知识迁移。王兴兴表示,现在机器人的数据样本量还非常小,真机数据虽然好,但海量的真机获取难度大,投入产出比相对有限。现在与其追求真机数据量,不如追求真机数据的利用率。王兴兴更建议多用视频数据或者合成数据,最后用真机数据进行调整。
三是如何提高强化学习规模效应,实现多任务近最优能力。王兴兴提到宇树科技自己的案例,很多强化学习的数据,当动作用完之后就丢掉了,无法二次重复利用。
对于未来,王兴兴认为世界模型或者视频生成模型成功的概率会更高一些,目前还看不到模型性能的上限在哪里。
目前,宇树科技已经开源了自己的世界模型,UnifoLM-WMA-0。目前的挑战是真机如何与生成的视频模态很好的对齐,视频生成的精度要远高于真机的精度,未来可能需要借助强化学习来弥补。
,时长00:22此外,宇树科技也开源了自己的VLA模型,不过王兴兴表示,目前还看不到基于VLA模型的来实现很好的泛化能力。
当然,虽然具身智能的ChatGPT时刻还没有到来,大家也不需要过于悲观。在过去的一年里,具身智能的算法取得了长足的进步。
尤其是对于宇树科技自己,这个常被误解为单纯靠硬件实力出圈,而AI实力大幅倍低估的公司,其实算法领域的进展要比大家想象的要快。本次王兴兴介绍了宇树科技实际做的几个方向,并且在介绍技术方案的同时,也表达了自己的观点,非常具有参考意义。
先从春晚特别火的“武BoT”说起。宇树科技采用的是强化学习(RL)模型。目前已经迭代到了第五代。王兴兴表示,当前人形机器人全身强化学习技术已经相对成熟,绝大部分问题已经得到解决,虽然还需要继续完善,但本质上已经不再是瓶颈。
“武BoT”是从100多种动作中挑选了几十种动作,尤其是一些高难度的动作。采用的预训练全身RL模型技术,而非单纯的RL模型。一方面是模型更加容易实现,更重要的是执行任何动作时都可以瞬间停止,然后可以立即执行另外的任意动作,方便调试任意的动作组合。
另外是去年下半年宇树发布的全身遥操作平台,方便数据的大规模采集。不过王兴兴也承认,当前遥操作也存在一个明显的问题,机器人真正动起来之后动作完成度和真人相比还是会有所欠缺,并且在面对一些复杂动作的时候,脚还是会抖动,需要做一些完善。但可以肯定的是,遥操作的稳定性表现不错。
VLA模型方面,宇树科技进厂工作的机器人搭载的便是VLA模型。实际表现来看,在应对复杂工序的生产时,比如关节模组的生产中,VLA模型的成功率还比较低。但对于单工序场景,数据训练好之后,可以做到100%的成功率。
本次王兴兴也表达了对于“运动(表演)”和“干活(进厂打工)”的看法,他表示两者并不冲突,可以并行推进。但运动是干活的先决必要条件,因为运动的动作更加丰富,并且稳定性要求也更高。
此外,王兴兴高度肯定了英伟达的贡献,目前业内大多数机器人采用的是英伟达的硬件以及英伟达的仿真环境进行开发。













沪公网安备31010702008139