2026-04-24 to 2026-05-01

VLA 週報

基於 VLA-Handbook 7 天系統數據

TL;DR

STARRY 与 DIAL 两篇论文分别从世界模型增强与意图-动作解耦两个方向优化 VLA 决策逻辑，代表架构创新的主流趋势
小米开源 Xiaomi-Robotics-0 完整后训练工作流（20小时数据达亚毫米精度），特斯拉 Optimus 确认 Q2 量产，智元机器人进入 3C 产线——工程化落地加速
社区多框架（openpi/openvla）在 LIBERO 基准出现 0-3.3% 训练成功率断崖，数据管道与模拟器参数对齐成为本周核心摩擦点

Spotlight

https://arxiv.org/abs/2604.26848" target="_blank" rel="noopener noreferrer">STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation

提出时空动作中心世界模型 STARRY，将空间-时间预测与动作生成联合去噪，填补现有 VLA 策略对动作相关时空交互结构建模的空白。

当前 VLA 策略（包括世界模型增强型）普遍将世界模型作为独立的预测模块，与动作生成解耦，导致预测信号与策略决策之间存在信息断层。STARRY 的核心创新在于联合去噪未来时空潜在变量与动作序列，使世界模型的预测目标与动作生成的优化目标天然对齐。引入 action-centric 的时空注意力掩码机制，强制模型聚焦于与当前动作相关的时空区域，减少无关背景的干扰。从工程角度看，这种联合建模方式有望提升长程操作任务的泛化能力——社区验证显示 OpenVLA 在 LIBERO-10 上仅 62.6%（论文声称 85.7%），时空推理不足是重要原因。

世界模型与动作生成的联合去噪是 VLA 架构演进的合理方向，值得跟踪实机验证结果。

https://arxiv.org/abs/2603.29844" target="_blank" rel="noopener noreferrer">DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

通过潜在世界建模解耦高层意图与低层动作，解决端到端 VLA 中 VLM 编码器语义表征退化与训练不稳定的问题。

现有端到端 VLA 将 VLM 主要视为多模态编码器，直接将 vision-language 特征映射到低层动作，这种范式严重浪费了 VLM 的高层推理能力，同时引入训练不稳定性——VLM 丰富的语义表征在动作监督信号的梯度冲刷下迅速退化。DIAL 通过潜在世界模型在意图层与动作层之间建立解耦通道：意图层负责高层语义推理与任务规划，动作层负责底层运动控制，两者通过世界模型的潜在空间进行信息桥接。这一设计与本周社区发现的问题高度呼应——openpi #804 报告 3.3% 成功率、openvla #299 报告 0% 成功率，根因可能正是意图-动作耦合导致的梯度冲突。DIAL 的解耦架构为缓解此类问题提供了理论框架。

解耦架构有望解决 VLA 训练不稳定问题，但需要更多跨基准验证。

SOTA 變化

CALVIN ABC-D: MMaDA-VLA 以 4.78 刷新 avg_len 纪录（Xiaomi-Robotics-0 +0.03），AVA-VLA 4.65（TriVLA +0.28）
长程任务连贯性持续突破，生成式策略在动作序列稳定性上超越传统扩散策略。
LIBERO standard-opensource: CORAL 以 99.3% 领先（SRPO +0.10），PLD 在 non-standard 达 99.17%
LIBERO 基准接近饱和，区分度下降，社区需新基准来评估真实泛化能力。
LIBERO Plus: NS-VLA 报告 79.4% total，为当前最高分
LIBERO Plus 作为更具挑战性的变体，仍有较大提升空间，是下一阶段竞争焦点。

本週發布

https://github.com/google-deepmind/mujoco/releases/tag/3.8.0" target="_blank" rel="noopener noreferrer">MuJoCo 3.8.0: 物理仿真引擎更新，持续优化接触动力学与并行模拟性能，为 VLA 训练提供更接近真实的 sim-to-real 环境。
https://www.ithome.com/0/853/564.htm" target="_blank" rel="noopener noreferrer">Xiaomi-Robotics-0 后训练工作流: 小米开源完整后训练工作流，支持开箱即用微调，仅需 20 小时任务数据即可掌握亚毫米级高精度放置动作，大幅降低 VLA 微调门槛。

產業動態

智元机器人: https://www.k.sina.com.cn/article_5953190046_162d6789e067030p2g.html" target="_blank" rel="noopener noreferrer">「景灵 G2」人形机器人进入南昌龙旗科技 3C 精密制造产线，执行 7×24 小时连续上下料测试，标志具身智能首次大规模进入消费电子核心制造
特斯拉 / Elon Musk: http://k.sina.com.cn/article_5953189932_162d6782c067045di6.html" target="_blank" rel="noopener noreferrer">Q1 财报电话会确认第三代 Optimus 年中亮相，7-8 月弗里蒙特工厂量产，2026 下半年交付企业客户
星动纪元: https://www.stcn.com/article/detail/1865545.html" target="_blank" rel="noopener noreferrer">完成超 2 亿美元融资（顺丰领投），确认 PMF，Q2 启动千台级交付部署于中国邮政及顺丰物流中心
宇树科技: http://finance.sina.com.cn/7x24/2026-04-23/doc-inhvntew5004195.shtml" target="_blank" rel="noopener noreferrer">发布轮足双模人形机器人视频，展示滑冰、360度旋转、前空翻等高动态动作

观察清单 WATCH LIST

下週觀察清單

小米 Xiaomi-Robotics-0 开源工作流的社区复现进展——20小时数据达亚毫米精度的声明需要独立验证
特斯拉 Optimus 第三代细节披露（预计 5-6 月），关注 VLA 控制架构是否引入世界模型组件
openpi/openvla 社区在 LIBERO 基准的训练成功率断崖问题——数据管道配置与模拟器参数对齐的解决方案
自变量机器人 WALL-B 搭载机器人 5 月 25 日进入真实家庭的实际表现——首个消费级 VLA 家庭部署案例
MiMo-Embodied 跨域统一架构（自动驾驶+具身AI）的工程可行性——17 个基准刷新是否可复现