ICLR 2026揭示9大核心趋势。
VLA想必大家已经不在陌生。虽然和世界模型对比,VLA的未来还存在一些争议。当前VLA模型普遍存在参数庞大、计算成本高昂、部署困难的问题,并且所需的数据集也非常庞大,而数据的来源又比较有限。合成数据虽然能解决一部分问题,但大多数认为,真实的数据对于VLA的训练至关重要,而真实的数据存在很大获取的难度。
但不可否认,VLA是解决未来辅助驾驶乃至自动驾驶和人形机器人泛化性的选项之一。
对于VLA未来如何发展。近期,比较热门的一篇文章是由2025年Apple AI/ML学者奖得主Moritz Reuss撰写的,文章题目为State of Vision-Language-Action (VLA) Research at ICLR 2026 。Moritz Reuss目前是KIT大学(卡尔斯鲁厄理工学院)4年级博士生,介绍主页为(https://mbreuss.github.io/)。
文章中提到的ICLR是全球人工智能领域的顶级学术会议,在2013年由Yoshua Bengio和Yann LeCun两位大牛创办。Yoshua Bengio、Yann LeCun和Geoffrey Hinton被认为是深度学习三巨头。
在此之前,张小珺商业交流录节目曾邀请星动纪元创始人陈建宇进行关于VLA模型的讲解分享(B站地址为:https://www.bilibili.com/video/BV1q6RzYnENi/?spm_id_from=333.1387.upload.video_card.click&vd_source=590844111ef76171a49d773fc4f1c3f6)。个人认为该分享对快速了解VLA及其发展非常有帮助,并且很好的解释了VLA、VLM、扩散模型的特征。
本次,我结合两者的分享,尝试整理关于VLA发展的未来方向。
01.
什么是VLA?
VLA的英文全称是Vision-Language-Action,即以视觉观测和自然语言指令作为必须输入,可融合其他感知模态,并通过直接生成控制命令来输出机器人动作。从定义来看,VLA和端到端模型(end-to-end)并不矛盾。
陈建宇列举了几种VLA的主流模型,根据模型特征分为了:
Transformer/Transformer+Prediction/VLM/VLM+Action/Diffusion/Diffusion+Prediction/Unified/RL。
Moritz Reuss对于VLA的定义有自己的看法,他认为,VLA 是一种使用在大规模视觉-语言数据上预训练的骨干网络,并在此基础上进一步训练以生成控制命令的模型。重点强调了预训练对于VLA的重要性。而对于没有经过预训练的VLA,其更认为是多模态模型(multimodal policies),而非VLA。按照此定义,陈建宇提到的一些仅采用Transformer的模型则归为多模态模型,而非VLA。
Moritz Reuss根据ICLR 提交的论文数量做了一个统计,ICRL 2024仅有一篇,ICRL 2025是9篇,ICRL 2026有164篇。可以看出,目前VLA的热度非常高。
对VLA的对比几乎都是在常规仿真基础上进行,超过90%的论文都是在 LIBERO、SIMPLER 或 CALVIN 上进行测试。结果显示,各模型能力也逐渐趋同。
新的测试方案如RLBench在VLA基准测试中的使用率正在提升,但Moritz Reuss认为所有VLA模型的性能仍远低于3D领域的最优方法(如3DDA),同时大多数VLA策略都刻意避免与所有相关的3D基线模型进行比较。
02.
VLA的发展趋势
在陈建宇的分享中,其表示VLA未来的两个方向是UP-VLA(具身智能体的统一理解与预测模型)和iRe-VLA(通过在线强化学习改进视觉-语言-动作模型)。
在总结 ICLR 2026 投稿后,Moritz Reuss同样给出了未来VLA发展趋势的判断。
1)离散扩散模型
「Discrete Diffusion VLAs」
扩散模型(Diffusion model)近年来在图像生成领域取得了显著的效果,展现出了强大的生成能力。而文本、图形可以看作是一种离散数据,所以文本生成更多由自回归式的大语言模型(LLM)所主导。2024年一篇研究离散扩散模型用于文本生成文章的发布,即《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,引发了学术界的广泛兴趣。因为VLA和LLM的联系,离散扩散模型自然得也成为重点方向。
Moritz Reuss指出,和自回归模型相比,扩散模型可并行生成序列,相比于离散动作token生成而言,无需运行策略100次,即可在少数前向传递中生成长动作序列。同时,还可与具身思维链(ECoT)结合,在并行生成动作的同时生成子目标和推理步骤,从而解决ECoT因VLM模型自回归特性导致速度极慢这一重大局限。
目前离散扩散VLA的研究方向主要有两类。一是利用离散扩散对自回归VLM进行微调,二是以LLaDA-V作为预训练骨干网络。
2)推理型VLA与具身思维链结合
「Reasoning VLAs and Embodied Chain-of-Thought (ECoT)」
VLA一个很重要的诉求是泛化性。而在语言模型中,CoT对于解决复杂性问题非常重要,自然而然,就想到将其迁移至VLA模型中。其核心思想是,在动作生成过程中加入中间视觉推理和文本推理步骤,帮助VLA模型更好地理解任务背景和环境,从而建立动作生成与推理之间的关联。这些推理轨迹还具有更强的可解释性,可用于调试和理解VLA模型的行为。
不过将CoT从语言模型应用到机器人领域存在一些挑战。一方面,当前的VLA建立在一些相对较小参数量或者开源的VLM之上,当简单的提示逐步思考时,执行有意义推理的能力无法与封闭模型相匹配。另外,语言模型中常见的CoT推理是将任务分解为子任务,虽然有所帮助,但不足以用于机器人任务的推理。
Moritz Reuss提到,自从首篇ECoT论文(CoRL 2024)发表以来,将空间基础推理与动作预测相结合以改进VLA关注度越来越高。先前对ECoT训练的分析表明,有助于缩小VLM静态预训练和机器人任务之间的表征差距。
不过,Moritz Reuss也表示,如何最好地为 VLA 实现基于语境的推理仍然是一个开放性问题。先前ECoT工作的一个关键局限性在于VLA的自回归特性以及Token数量的增加,导致训练和推理速度变慢。最近的研究探索了其他模态,例如 MolmoAct 中的深度预测。一个主要的瓶颈是多样化训练数据的可用性有限:许多 ECoT 研究仍然依赖于相同的 BRIDGE 和 LIBERO 标注数据集。需要更多样化的数据集,以及更复杂的任务和环境,才能进一步推动这一方向的发展;然而,标注像 DROID 这样的大规模数据集非常困难。
3)新型分词器
「New Tokenizers」
机器人控制采用的是高频连续控制,而VLM在离散的Token上才能发挥最佳性能。直接微调VLM回归连续动作的表现不好,并且会可能会因为新目标与预训练表征不匹配引发遗忘。
新型分词器的核心是将连续动作序列转换为VLM可以预测的紧凑离散Token。在保持准确性和平滑性的同时,最大限度地减少计算和集成开销。Moritz Reuss认为,理想的动作 token化器应该速度快、对长动作块实现高压缩比、产生平滑的长时域输出,并且无需修改即可集成到现有的VLM架构中。
此前使用的离散分箱(例如RT-1)和VQ-VAE码本都存在精度低或长序列效率低的问题。而FAST 引入了专为 VLA 预测设计的动作块分词器,证明离散 token 可替代复杂的扩散/流专家。ICLR 2026 的新分词器在此基础上结合了,残差矢量量化(RVQ,如 SoundStream)以提高压缩率、受 BEAST 启发的样条参数化,生成平滑长轨迹、类似 FAST 的 DCT 风格目标,偏向低频、物理合理的运动。
4)高效VLA
「Efficient VLAs」
众所周知,VLA需要的算力巨大,相应的成本需要高昂。高效VLA技术就像DeepSeek一样,特点是降低对算力的需求,即使是计算资源有限的实验室也能开发研究,成熟后对VLA的普及也有重要意义。
对应的方向有两个,一是尝试通过缩小VLA规模或改进token化器等方式来提高训练和模型的效率;二是通过改进量化、蒸馏或类似方法来提高推理效率。
5)强化学习微调VLA
「RL for VLAs」
陈建宇也提到了这一方向。其目的是将VLA在真实世界中的成功率从70%-80%提升至90%。不过目前仍然没有一种方法被公认为最佳方案。这次公开的论文中也提供了不同的RL微调路径。
论文一是采用残差RL方法,用冻结的 VLA 与小型残差策略收集更多数据,利用残差干预获取高质量恢复行为数据,最终通过 SFT 微调 VLA。在LIBERO表现达到 99%。
论文二是将机器人任务分解为语义阶段(Reach→Grasp→Transport→Place),为每阶段分配奖励。使用 STA-TPO(离线偏好学习)和 STA-PPO(在线强化学习),均在阶段层面操作。在Bridge SIMPLER 上达98%。
看起来表现均不错。
6)VLA+视频预测
视频生成模型中丰富的时序动态和物理交互表征特性能为机器人控制提供有用的先验经验。目前其策略主要有两类,一是从(可选经图像/视频生成预训练的)VLM 出发,继续训练以预测未来帧与动作,二是从视频基础模型出发,改造其以生成动作。
不过由于当前 SOTA 视频基础模型多为扩散/流式,推理速度慢是主要瓶颈。同时,微调Wan等SOTA视频模型的计算成本极高,甚至超过 VLM-based VLA 微调。相比于VLM初始化的VLA,该方向尚不主流。
7)VLA的评估与基准测试
「Evaluation and Benchmarking of VLAs」
上文提到,VLA的基准已趋于饱和。在此基准中进行比较,模型能力相差无几。新的论文中提出了新的基准,这其中就包括使用real2sim 世界模型在生成环境中测试策略。不过,尚未有新的基准能够替代现有基准。
8)跨动作学习
「Cross-Action-Space Learning」
由于难以获得正向迁移效果,大多数VLA回避在多样化动作空间上进行预训练。不过,利用带动作标签的人类第一视角视频进行预训练VLA的兴趣日益增长。目前主要有两个方向,一是改进VLA架构以更好处理异构动作空间,二是使用图像空间运动等抽象表示以提升迁移效果。
Moritz Reuss重点提高,DeepMind 最近发布的 Gemini Robotics 1.5[19]暗示其未公开的“运动迁移”技术可实现动作空间间的零样本任务迁移。不过,他也表示或许只是数据与模型规模的问题,仍需要更多研究深入理解。
9)其他的方向
除此之外,Moritz Reuss对于关注的记忆机制也有论文提出。
对于记忆机制,目前大多数VLA仅编码当前图像,忽略历史时序。如果简单的将长历史输入VLA往往适得其反,模型过度拟合演示者特定轨迹,而rollout 时很少遇到相同状态序列,导致性能大幅下降。
相比之下,聚合压缩历史上下文(而非记忆)的记忆模块前景广阔,有望在保留长时程控制所需时序线索的同时,提升对分布偏移的鲁棒性。另一亮点是测试时组合多个策略以提升性能。扩散/流式 VLA 因其能量模型形式,可通过叠加分数实现策略组合。这是无需训练即可提升性能的有前途方向。
03.
写在最后
Moritz Reuss对VLA研究的现状和展望持乐观态度,不过目前依然存在挑战。
一是当前论文无法覆盖的场景,如预训练后的零样本、开放世界行为。此外,还包括数据质量和上下文学习。












沪公网安备31010702008139