2026-05-08 to 2026-05-15

VLA 週報

基於 VLA-Handbook 7 天系統數據

TL;DR

Jim Fan宣告VLA范式终结，主张转向World Action Models；产业端密集推进量产与多智能体协同（智元万台交付、Figure双机铺床）
算法层从架构创新转向工程优化：Realtime-VLA FLASH、FrameSkip与AttenA+聚焦推理加速、数据采样效率与动作不平等修正，反映VLA进入边际调优期
开源生态加速收敛，lerobot稳占探索期核心，openpi迈入生产就绪，硬件适配与数据管道对齐成为跨框架共性摩擦点

Spotlight

https://arxiv.org/abs/2605.13778" target="_blank" rel="noopener noreferrer">Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

提出FLASH推测推理框架，通过引入轻量级草稿模型与主模型Action Expert的并行验证机制，消除扩散VLA在重规划阶段的大部分完整推理调用。

扩散策略（Diffusion Policy）虽在视觉运动建模上表现优异，但多步去噪带来的高延迟一直是实时部署的致命瓶颈。FLASH的核心创新在于将大语言模型领域的推测解码（Speculative Decoding）思想迁移至VLA，利用草稿模型快速生成候选动作，再由主模型进行相位感知的并行验证与回退。该方案在不牺牲策略精度的前提下大幅压缩推理延迟，直接打通了dVLA从实验室走向高动态实时控制的工程路径。社区验证表明，硬件算力瓶颈（如消费级GPU内存限制）正迫使算法向高效推理架构倾斜。

推测解码是解决扩散VLA实时性问题的最优工程路径，具备极高的落地复用价值。

https://arxiv.org/abs/2605.13757" target="_blank" rel="noopener noreferrer">FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

指出密集演示轨迹中存在时间监督失衡问题，提出FrameSkip策略，自动筛选对齐、接触、抓取等关键过渡帧进行训练，摒弃低信息量的静止片段。

当前VLA训练普遍采用全帧采样，导致大量低变化片段主导梯度更新，而决定任务成败的关键物理交互信号被稀释。FrameSkip通过量化帧间信息熵或动作变化率，构建高价值帧采样分布。该方法无需修改模型架构，即可显著提升数据利用效率与训练稳定性。结合社区实战经验（如SmolVLA在50 episodes下即达90%+成功率），数据质量与采样策略的优化比单纯堆砌演示时长更具性价比，为资源受限团队提供了明确的训练调优方向。

简单高效的数据采样范式，应成为VLA训练流水线的标准配置。

SOTA 變化

CALVIN ABC-D: MMaDA-VLA 以 4.78 刷新 avg_len 纪录（Xiaomi-Robotics-0 +0.03），AVA-VLA 4.65
长程任务连贯性持续微增，但+0.03的边际提升表明基准已高度饱和，刷分收益递减。
LIBERO standard-opensource: CORAL 以 99.3% 领先，LIBERO non-standard 达 99.17%
LIBERO 系列基准接近理论上限，区分度彻底丧失，社区亟需引入物理交互或开放世界新基准。
LIBERO Plus: NS-VLA 报告 79.4% total
作为更具挑战性的变体，LIBERO Plus 仍保留较大提升空间，是下一阶段验证真实泛化能力的核心战场。

本週發布

https://github.com/google-deepmind/mujoco/releases/tag/3.8.1" target="_blank" rel="noopener noreferrer">MuJoCo 3.8.1: 物理仿真引擎迭代更新，持续优化接触动力学求解器与并行模拟性能，为VLA策略训练与Sim2Real迁移提供更接近物理真实的底层环境。

產業動態

Jim Fan (NVIDIA): https://finance.sina.com.cn/tech/roll/2026-05-09/doc-inexxxxx.shtml" target="_blank" rel="noopener noreferrer">5月9日在红杉AI Ascent峰会正式宣告当前VLA范式“已死”，主张以World Action Models取代，并指出遥操作路线将被淘汰。
智元机器人: http://finance.sina.com.cn/tech/2026-05-12/doc-inhxrfsp8384280.shtml" target="_blank" rel="noopener noreferrer">5月12-13日宣布全尺寸人形机器人“远征A3”累计产量突破10,000台，发布产业共创计划，标志具身智能正式跨越万台规模化交付门槛。
Figure AI: http://k.sina.com.cn/article_5953190046_162d6789e067033n1c.html" target="_blank" rel="noopener noreferrer">5月8日发布双机器人合作铺床演示视频，验证了多智能体协同理解与复杂柔性物体操作的高阶工程能力。
宇树科技: 5月12日全球首发量产载人变形机甲“GD01”，展示高动态运动控制与新型具身形态的商业化探索。

观察清单 WATCH LIST

下週觀察清單

Realtime-VLA FLASH 与 FrameSkip 的代码开源与社区复现进展——工程优化方案需独立验证其泛化性与算力收益
Jim Fan 的 WAM 主张是否引发主流实验室（如 PI、DeepMind、CMU）的架构转向或公开学术辩论
杭州国际人形机器人展览会（5/14-16）是否披露新的 VLA 部署案例、供应链突破或标准化接口协议
lerobot 与 openpi 在跨硬件部署中的摩擦指标（DFI）是否因新框架发布或数据协议统一而缓解