Skip to content
WEEKLY RECON | 2026.05.09 – 05.15

前瞻偵察前瞻侦察 · 2026年5月15日

意外信號意外信号 可證偽命題可证伪命题 觀察清單观察清单

2026-05-08 to 2026-05-15

VLA 週報

基於 VLA-Handbook 7 天系統數據

TL;DR

  • Jim Fan宣告VLA范式终结,主张转向World Action Models;产业端密集推进量产与多智能体协同(智元万台交付、Figure双机铺床)
  • 算法层从架构创新转向工程优化:Realtime-VLA FLASH、FrameSkip与AttenA+聚焦推理加速、数据采样效率与动作不平等修正,反映VLA进入边际调优期
  • 开源生态加速收敛,lerobot稳占探索期核心,openpi迈入生产就绪,硬件适配与数据管道对齐成为跨框架共性摩擦点

Spotlight

https://arxiv.org/abs/2605.13778" target="_blank" rel="noopener noreferrer">Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

提出FLASH推测推理框架,通过引入轻量级草稿模型与主模型Action Expert的并行验证机制,消除扩散VLA在重规划阶段的大部分完整推理调用。

扩散策略(Diffusion Policy)虽在视觉运动建模上表现优异,但多步去噪带来的高延迟一直是实时部署的致命瓶颈。FLASH的核心创新在于将大语言模型领域的推测解码(Speculative Decoding)思想迁移至VLA,利用草稿模型快速生成候选动作,再由主模型进行相位感知的并行验证与回退。该方案在不牺牲策略精度的前提下大幅压缩推理延迟,直接打通了dVLA从实验室走向高动态实时控制的工程路径。社区验证表明,硬件算力瓶颈(如消费级GPU内存限制)正迫使算法向高效推理架构倾斜。

推测解码是解决扩散VLA实时性问题的最优工程路径,具备极高的落地复用价值。

https://arxiv.org/abs/2605.13757" target="_blank" rel="noopener noreferrer">FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

指出密集演示轨迹中存在时间监督失衡问题,提出FrameSkip策略,自动筛选对齐、接触、抓取等关键过渡帧进行训练,摒弃低信息量的静止片段。

当前VLA训练普遍采用全帧采样,导致大量低变化片段主导梯度更新,而决定任务成败的关键物理交互信号被稀释。FrameSkip通过量化帧间信息熵或动作变化率,构建高价值帧采样分布。该方法无需修改模型架构,即可显著提升数据利用效率与训练稳定性。结合社区实战经验(如SmolVLA在50 episodes下即达90%+成功率),数据质量与采样策略的优化比单纯堆砌演示时长更具性价比,为资源受限团队提供了明确的训练调优方向。

简单高效的数据采样范式,应成为VLA训练流水线的标准配置。

SOTA 變化

  • CALVIN ABC-D: MMaDA-VLA 以 4.78 刷新 avg_len 纪录(Xiaomi-Robotics-0 +0.03),AVA-VLA 4.65
  • 长程任务连贯性持续微增,但+0.03的边际提升表明基准已高度饱和,刷分收益递减。
  • LIBERO standard-opensource: CORAL 以 99.3% 领先,LIBERO non-standard 达 99.17%
  • LIBERO 系列基准接近理论上限,区分度彻底丧失,社区亟需引入物理交互或开放世界新基准。
  • LIBERO Plus: NS-VLA 报告 79.4% total
  • 作为更具挑战性的变体,LIBERO Plus 仍保留较大提升空间,是下一阶段验证真实泛化能力的核心战场。

本週發布

產業動態

下週觀察清單

  • Realtime-VLA FLASH 与 FrameSkip 的代码开源与社区复现进展——工程优化方案需独立验证其泛化性与算力收益
  • Jim Fan 的 WAM 主张是否引发主流实验室(如 PI、DeepMind、CMU)的架构转向或公开学术辩论
  • 杭州国际人形机器人展览会(5/14-16)是否披露新的 VLA 部署案例、供应链突破或标准化接口协议
  • lerobot 与 openpi 在跨硬件部署中的摩擦指标(DFI)是否因新框架发布或数据协议统一而缓解