Skip to content
WEEKLY RECON | 2026.04.25 – 05.01

前瞻偵察前瞻侦察 · 2026年5月1日

意外信號意外信号 可證偽命題可证伪命题 觀察清單观察清单

2026-04-24 to 2026-05-01

VLA 週報

基於 VLA-Handbook 7 天系統數據

TL;DR

  • STARRY 与 DIAL 两篇论文分别从世界模型增强与意图-动作解耦两个方向优化 VLA 决策逻辑,代表架构创新的主流趋势
  • 小米开源 Xiaomi-Robotics-0 完整后训练工作流(20小时数据达亚毫米精度),特斯拉 Optimus 确认 Q2 量产,智元机器人进入 3C 产线——工程化落地加速
  • 社区多框架(openpi/openvla)在 LIBERO 基准出现 0-3.3% 训练成功率断崖,数据管道与模拟器参数对齐成为本周核心摩擦点

Spotlight

https://arxiv.org/abs/2604.26848" target="_blank" rel="noopener noreferrer">STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation

提出时空动作中心世界模型 STARRY,将空间-时间预测与动作生成联合去噪,填补现有 VLA 策略对动作相关时空交互结构建模的空白。

当前 VLA 策略(包括世界模型增强型)普遍将世界模型作为独立的预测模块,与动作生成解耦,导致预测信号与策略决策之间存在信息断层。STARRY 的核心创新在于联合去噪未来时空潜在变量与动作序列,使世界模型的预测目标与动作生成的优化目标天然对齐。引入 action-centric 的时空注意力掩码机制,强制模型聚焦于与当前动作相关的时空区域,减少无关背景的干扰。从工程角度看,这种联合建模方式有望提升长程操作任务的泛化能力——社区验证显示 OpenVLA 在 LIBERO-10 上仅 62.6%(论文声称 85.7%),时空推理不足是重要原因。

世界模型与动作生成的联合去噪是 VLA 架构演进的合理方向,值得跟踪实机验证结果。

https://arxiv.org/abs/2603.29844" target="_blank" rel="noopener noreferrer">DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

通过潜在世界建模解耦高层意图与低层动作,解决端到端 VLA 中 VLM 编码器语义表征退化与训练不稳定的问题。

现有端到端 VLA 将 VLM 主要视为多模态编码器,直接将 vision-language 特征映射到低层动作,这种范式严重浪费了 VLM 的高层推理能力,同时引入训练不稳定性——VLM 丰富的语义表征在动作监督信号的梯度冲刷下迅速退化。DIAL 通过潜在世界模型在意图层与动作层之间建立解耦通道:意图层负责高层语义推理与任务规划,动作层负责底层运动控制,两者通过世界模型的潜在空间进行信息桥接。这一设计与本周社区发现的问题高度呼应——openpi #804 报告 3.3% 成功率、openvla #299 报告 0% 成功率,根因可能正是意图-动作耦合导致的梯度冲突。DIAL 的解耦架构为缓解此类问题提供了理论框架。

解耦架构有望解决 VLA 训练不稳定问题,但需要更多跨基准验证。

SOTA 變化

  • CALVIN ABC-D: MMaDA-VLA 以 4.78 刷新 avg_len 纪录(Xiaomi-Robotics-0 +0.03),AVA-VLA 4.65(TriVLA +0.28)
  • 长程任务连贯性持续突破,生成式策略在动作序列稳定性上超越传统扩散策略。
  • LIBERO standard-opensource: CORAL 以 99.3% 领先(SRPO +0.10),PLD 在 non-standard 达 99.17%
  • LIBERO 基准接近饱和,区分度下降,社区需新基准来评估真实泛化能力。
  • LIBERO Plus: NS-VLA 报告 79.4% total,为当前最高分
  • LIBERO Plus 作为更具挑战性的变体,仍有较大提升空间,是下一阶段竞争焦点。

本週發布

  • https://github.com/google-deepmind/mujoco/releases/tag/3.8.0" target="_blank" rel="noopener noreferrer">MuJoCo 3.8.0: 物理仿真引擎更新,持续优化接触动力学与并行模拟性能,为 VLA 训练提供更接近真实的 sim-to-real 环境。
  • https://www.ithome.com/0/853/564.htm" target="_blank" rel="noopener noreferrer">Xiaomi-Robotics-0 后训练工作流: 小米开源完整后训练工作流,支持开箱即用微调,仅需 20 小时任务数据即可掌握亚毫米级高精度放置动作,大幅降低 VLA 微调门槛。

產業動態

下週觀察清單

  • 小米 Xiaomi-Robotics-0 开源工作流的社区复现进展——20小时数据达亚毫米精度的声明需要独立验证
  • 特斯拉 Optimus 第三代细节披露(预计 5-6 月),关注 VLA 控制架构是否引入世界模型组件
  • openpi/openvla 社区在 LIBERO 基准的训练成功率断崖问题——数据管道配置与模拟器参数对齐的解决方案
  • 自变量机器人 WALL-B 搭载机器人 5 月 25 日进入真实家庭的实际表现——首个消费级 VLA 家庭部署案例
  • MiMo-Embodied 跨域统一架构(自动驾驶+具身AI)的工程可行性——17 个基准刷新是否可复现