字节跳动GR-RL让机器人练就穿鞋带“技能”。
当我们熟练地系上鞋带出门时,或许从未想过,这个早已内化为肌肉记忆的简单动作,对机器人而言却是操作领域的“终极挑战”。
在具身智能飞速发展的今天,基于海量数据预训练的视觉-语言-动作(VLA)模型虽已展现出不错的通用泛化能力,却在穿鞋带这类要求高精度、高鲁棒性的柔性物体操作任务面前屡屡碰壁。
12月2日,字节跳动Seed团队发布的最新研究成果GR-RL,通过创新的真机强化学习框架,首次实现让机器人给整只鞋连续穿鞋带,成功突破VLA模型精细操作瓶颈,为具身智能走向实用化迈出关键一步。
01.
穿鞋带,机器人的考验和模仿学习的困境
为何穿鞋带会成为机器人操作的试金石?这背后藏着机器人领域的三大核心挑战。
首先,柔性交互难题,鞋带作为典型的柔性物体,其形态会随受力实时变化,物理状态难以预测。
其次,极致精度要求,要将纤细的鞋带准确穿过微小的鞋孔,需要达到毫米级的控制精度。
最后,长时程鲁棒性考验,整个穿鞋带过程需持续数分钟,期间可能出现鞋带滑落、初始位置偏差等各类突发状况,对机器人的持续适应能力提出了极高要求。
面对这一复杂任务,主流的模仿学习范式显得力不从心。字节跳动Seed团队研究发现,模仿学习存在两大内生缺陷。
一方面,人类演示数据存在“次优片段”,在极高精度灵巧操作场景中,人类演示者会不自觉地放慢动作、出现犹豫,甚至多次中途失败再修正,直接学习这些数据会让模型记住无效甚至错误的动作,导致策略不够果断精准。
另一方面,训练与推理存在“执行错位”,为保证动作平滑性,业界常用的时序集成、滚动时域控制等后处理方法,会让模型训练时学习的预测动作与推理时实际执行的最终动作出现偏差,在毫米级操作中,这种微小偏差会切断动作与环境反馈的真实因果链条,最终导致任务失败。
即便是基于海量数据训练的通用机器人模型GR-3,在穿鞋带任务中的成功率也仅为45.7%,难以满足实际应用需求。
02.
多阶段强化学习的GR-RL
为突破模仿学习的局限,字节跳动Seed团队并未依赖难以建模的仿真学习,而是选择了更具挑战性的真机强化学习路径,构建了GR-RL多阶段训练框架,通过离线筛选、数据增强、在线微调的闭环设计,让机器人在试错中自主进化。
在离线阶段,GR-RL首要解决的是数据质量问题。
针对人类演示数据中混杂的次优片段,团队创新性地构造“反事实”负样本。在每条成功轨迹中标记开始重试的关键帧,截取重试前的片段作为失败轨迹,在不增加额外采集成本的情况下大幅扩充负样本空间。
随后,在混合了成功与失败的轨迹集上,团队利用时序差分学习训练判别器网络,该网络能对动作序列中每个时刻的动作进行质量“打分”,像质检员一样剔除“错误动作”的低价值片段,仅保留高质量数据用于监督学习,换句话说就是先学会“什么是错误的动作”,为模型打下坚实的基础策略。
在数据增强阶段,则通过物理对称性实现 “举一反三”。
团队利用双臂协作任务的镜像对称性,对图像、本体状态、动作轨迹和语言指令进行左右镜像翻转,不仅让数据量翻倍,更有效提升了模型对空间关系的泛化理解,让模型能适应不同的操作场景。
在线阶段是GR-RL实现性能飞跃的关键。
为实现毫米级精度控制,团队放弃了在原始动作空间添加随机噪声的常规方法,转而在隐空间进行结构化探索,通过引入仅 51.5M 参数的噪声预测器,调整流模型的输入噪声,引导生成的轨迹向评估模型的高分区域偏移。
同时,为平衡样本效率与分布偏移,团队设计了双缓冲池策略,分别存储历史权重生成的交互数据和最近两个版本模型的轨迹数据,训练时按 1:1 比例均匀采样,既保证了样本利用率,又避免了模型快速更新导致的训练不稳定。
03.
真机验证,成功率翻倍
在配备独特球形腕部关节的ByteMini-v2双臂轮式机器人上,GR-RL接受了严格的真机测试。该机器人能像人类手腕一样灵活转动,通过包括头部与腕部三个视角的RGB图像、机器人本体状态信息以及语言指令,对模型进行观测。
实验采用稀疏奖励函数设计,仅当鞋带成功穿过指定鞋孔并放回桌面时,模型才能获得1分奖励,其他情况下均为0分,以此倒逼模型学习完整可靠的操作策略。
测试结果显示,GR-RL的多阶段框架实现了成功率的阶梯式跨越:经过离线数据筛选后,成功率从纯模仿学习基线(GR-3)的45.7% 提升至61.6%;加入数据增强后,成功率进一步提升至72.7%;再经过约150条轨迹的真机闭环探索与修正,最终成功率达到83.3%,较原始基线模型减少了近 70% 的失败情况。
▍左:多阶段训练实现阶梯式成功率提升
▍右:在线强化学习的成功率变化曲线
更令人惊喜的是,GR-RL 涌现出了类似人类的纠错智能。当鞋带在抓取、穿孔环节意外滑落时,模型并未卡死,而是自发重试。
当鞋带初始摆放位置较为困难(如被压住)时,模型能主动将场景调整到自己更熟悉的状态,再继续完成任务。
因此,这种“感知-决策-修正”的闭环能力,证明GR-RL真正理解了穿鞋带任务的物理逻辑,而非单纯记忆演示轨迹。
04.
从穿鞋带到通用操作
GR-RL的成功验证了真机强化学习在长时程、高精度柔性物体操作中的有效性,为VLA模型走向实际应用提供了可行路径。
但团队也坦言,当前方案仍存在局限性。比如在稀疏且含噪声的奖励信号下,模型在在线强化学习阶段可能出现行为偏移,这既源于轻量级噪声预测器的容量限制,也与隐空间动作空间中的信用分配难题相关。
展望未来,字节跳动 Seed 团队认为,强化学习不应是孤立的微调环节。未来的核心方向是将真机闭环交互中获得的RL经验,蒸馏回基础VLA模型中,通过数据反哺构建兼具高精度操作性能与强大泛化能力的通用策略。
随着技术的持续迭代,或许在不久的将来,机器人不仅能熟练穿鞋带,还能完成叠衣服、整理餐具等更多家庭精细操作任务,真正走进日常生活,成为人类的得力助手。
GR-RL的突破不仅是一项技术成果,更标志着具身智能从通用泛化向精准实用的关键转变。在真机强化学习的助力下,曾经看似遥不可及的机器人精细操作,正在一步步照进现实,为人工智能的落地应用开辟出更广阔的空间。
▍论文链接:
https://arxiv.org/abs/2512.01801
▍项目主页:
https://seed.bytedance.com/gr_rl













沪公网安备31010702008139