VLA 週報
基於 VLA-Handbook 7 天系統數據
TL;DR
- Jim Fan宣告VLA范式终结,主张转向World Action Models;产业端密集推进量产与多智能体协同(智元万台交付、Figure双机铺床)
- 算法层从架构创新转向工程优化:Realtime-VLA FLASH、FrameSkip与AttenA+聚焦推理加速、数据采样效率与动作不平等修正,反映VLA进入边际调优期
- 开源生态加速收敛,lerobot稳占探索期核心,openpi迈入生产就绪,硬件适配与数据管道对齐成为跨框架共性摩擦点
Spotlight
https://arxiv.org/abs/2605.13778" target="_blank" rel="noopener noreferrer">Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs
提出FLASH推测推理框架,通过引入轻量级草稿模型与主模型Action Expert的并行验证机制,消除扩散VLA在重规划阶段的大部分完整推理调用。
扩散策略(Diffusion Policy)虽在视觉运动建模上表现优异,但多步去噪带来的高延迟一直是实时部署的致命瓶颈。FLASH的核心创新在于将大语言模型领域的推测解码(Speculative Decoding)思想迁移至VLA,利用草稿模型快速生成候选动作,再由主模型进行相位感知的并行验证与回退。该方案在不牺牲策略精度的前提下大幅压缩推理延迟,直接打通了dVLA从实验室走向高动态实时控制的工程路径。社区验证表明,硬件算力瓶颈(如消费级GPU内存限制)正迫使算法向高效推理架构倾斜。
推测解码是解决扩散VLA实时性问题的最优工程路径,具备极高的落地复用价值。
https://arxiv.org/abs/2605.13757" target="_blank" rel="noopener noreferrer">FrameSkip: Learning from Fewer but More Informative Frames in VLA Training
指出密集演示轨迹中存在时间监督失衡问题,提出FrameSkip策略,自动筛选对齐、接触、抓取等关键过渡帧进行训练,摒弃低信息量的静止片段。
当前VLA训练普遍采用全帧采样,导致大量低变化片段主导梯度更新,而决定任务成败的关键物理交互信号被稀释。FrameSkip通过量化帧间信息熵或动作变化率,构建高价值帧采样分布。该方法无需修改模型架构,即可显著提升数据利用效率与训练稳定性。结合社区实战经验(如SmolVLA在50 episodes下即达90%+成功率),数据质量与采样策略的优化比单纯堆砌演示时长更具性价比,为资源受限团队提供了明确的训练调优方向。
简单高效的数据采样范式,应成为VLA训练流水线的标准配置。
SOTA 變化
- CALVIN ABC-D: MMaDA-VLA 以 4.78 刷新 avg_len 纪录(Xiaomi-Robotics-0 +0.03),AVA-VLA 4.65
- 长程任务连贯性持续微增,但+0.03的边际提升表明基准已高度饱和,刷分收益递减。
- LIBERO standard-opensource: CORAL 以 99.3% 领先,LIBERO non-standard 达 99.17%
- LIBERO 系列基准接近理论上限,区分度彻底丧失,社区亟需引入物理交互或开放世界新基准。
- LIBERO Plus: NS-VLA 报告 79.4% total
- 作为更具挑战性的变体,LIBERO Plus 仍保留较大提升空间,是下一阶段验证真实泛化能力的核心战场。
本週發布
- https://github.com/google-deepmind/mujoco/releases/tag/3.8.1" target="_blank" rel="noopener noreferrer">MuJoCo 3.8.1: 物理仿真引擎迭代更新,持续优化接触动力学求解器与并行模拟性能,为VLA策略训练与Sim2Real迁移提供更接近物理真实的底层环境。
產業動態
- Jim Fan (NVIDIA): https://finance.sina.com.cn/tech/roll/2026-05-09/doc-inexxxxx.shtml" target="_blank" rel="noopener noreferrer">5月9日在红杉AI Ascent峰会正式宣告当前VLA范式“已死”,主张以World Action Models取代,并指出遥操作路线将被淘汰。
- 智元机器人: http://finance.sina.com.cn/tech/2026-05-12/doc-inhxrfsp8384280.shtml" target="_blank" rel="noopener noreferrer">5月12-13日宣布全尺寸人形机器人“远征A3”累计产量突破10,000台,发布产业共创计划,标志具身智能正式跨越万台规模化交付门槛。
- Figure AI: http://k.sina.com.cn/article_5953190046_162d6789e067033n1c.html" target="_blank" rel="noopener noreferrer">5月8日发布双机器人合作铺床演示视频,验证了多智能体协同理解与复杂柔性物体操作的高阶工程能力。
- 宇树科技: 5月12日全球首发量产载人变形机甲“GD01”,展示高动态运动控制与新型具身形态的商业化探索。
观察清单 WATCH LIST
下週觀察清單
- Realtime-VLA FLASH 与 FrameSkip 的代码开源与社区复现进展——工程优化方案需独立验证其泛化性与算力收益
- Jim Fan 的 WAM 主张是否引发主流实验室(如 PI、DeepMind、CMU)的架构转向或公开学术辩论
- 杭州国际人形机器人展览会(5/14-16)是否披露新的 VLA 部署案例、供应链突破或标准化接口协议
- lerobot 与 openpi 在跨硬件部署中的摩擦指标(DFI)是否因新框架发布或数据协议统一而缓解