VLA 週報
基於 VLA-Handbook 7 天系統數據
TL;DR
- STARRY 与 DIAL 两篇论文分别从世界模型增强与意图-动作解耦两个方向优化 VLA 决策逻辑,代表架构创新的主流趋势
- 小米开源 Xiaomi-Robotics-0 完整后训练工作流(20小时数据达亚毫米精度),特斯拉 Optimus 确认 Q2 量产,智元机器人进入 3C 产线——工程化落地加速
- 社区多框架(openpi/openvla)在 LIBERO 基准出现 0-3.3% 训练成功率断崖,数据管道与模拟器参数对齐成为本周核心摩擦点
Spotlight
https://arxiv.org/abs/2604.26848" target="_blank" rel="noopener noreferrer">STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation
提出时空动作中心世界模型 STARRY,将空间-时间预测与动作生成联合去噪,填补现有 VLA 策略对动作相关时空交互结构建模的空白。
当前 VLA 策略(包括世界模型增强型)普遍将世界模型作为独立的预测模块,与动作生成解耦,导致预测信号与策略决策之间存在信息断层。STARRY 的核心创新在于联合去噪未来时空潜在变量与动作序列,使世界模型的预测目标与动作生成的优化目标天然对齐。引入 action-centric 的时空注意力掩码机制,强制模型聚焦于与当前动作相关的时空区域,减少无关背景的干扰。从工程角度看,这种联合建模方式有望提升长程操作任务的泛化能力——社区验证显示 OpenVLA 在 LIBERO-10 上仅 62.6%(论文声称 85.7%),时空推理不足是重要原因。
世界模型与动作生成的联合去噪是 VLA 架构演进的合理方向,值得跟踪实机验证结果。
https://arxiv.org/abs/2603.29844" target="_blank" rel="noopener noreferrer">DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA
通过潜在世界建模解耦高层意图与低层动作,解决端到端 VLA 中 VLM 编码器语义表征退化与训练不稳定的问题。
现有端到端 VLA 将 VLM 主要视为多模态编码器,直接将 vision-language 特征映射到低层动作,这种范式严重浪费了 VLM 的高层推理能力,同时引入训练不稳定性——VLM 丰富的语义表征在动作监督信号的梯度冲刷下迅速退化。DIAL 通过潜在世界模型在意图层与动作层之间建立解耦通道:意图层负责高层语义推理与任务规划,动作层负责底层运动控制,两者通过世界模型的潜在空间进行信息桥接。这一设计与本周社区发现的问题高度呼应——openpi #804 报告 3.3% 成功率、openvla #299 报告 0% 成功率,根因可能正是意图-动作耦合导致的梯度冲突。DIAL 的解耦架构为缓解此类问题提供了理论框架。
解耦架构有望解决 VLA 训练不稳定问题,但需要更多跨基准验证。
SOTA 變化
- CALVIN ABC-D: MMaDA-VLA 以 4.78 刷新 avg_len 纪录(Xiaomi-Robotics-0 +0.03),AVA-VLA 4.65(TriVLA +0.28)
- 长程任务连贯性持续突破,生成式策略在动作序列稳定性上超越传统扩散策略。
- LIBERO standard-opensource: CORAL 以 99.3% 领先(SRPO +0.10),PLD 在 non-standard 达 99.17%
- LIBERO 基准接近饱和,区分度下降,社区需新基准来评估真实泛化能力。
- LIBERO Plus: NS-VLA 报告 79.4% total,为当前最高分
- LIBERO Plus 作为更具挑战性的变体,仍有较大提升空间,是下一阶段竞争焦点。
本週發布
- https://github.com/google-deepmind/mujoco/releases/tag/3.8.0" target="_blank" rel="noopener noreferrer">MuJoCo 3.8.0: 物理仿真引擎更新,持续优化接触动力学与并行模拟性能,为 VLA 训练提供更接近真实的 sim-to-real 环境。
- https://www.ithome.com/0/853/564.htm" target="_blank" rel="noopener noreferrer">Xiaomi-Robotics-0 后训练工作流: 小米开源完整后训练工作流,支持开箱即用微调,仅需 20 小时任务数据即可掌握亚毫米级高精度放置动作,大幅降低 VLA 微调门槛。
產業動態
- 智元机器人: https://www.k.sina.com.cn/article_5953190046_162d6789e067030p2g.html" target="_blank" rel="noopener noreferrer">「景灵 G2」人形机器人进入南昌龙旗科技 3C 精密制造产线,执行 7×24 小时连续上下料测试,标志具身智能首次大规模进入消费电子核心制造
- 特斯拉 / Elon Musk: http://k.sina.com.cn/article_5953189932_162d6782c067045di6.html" target="_blank" rel="noopener noreferrer">Q1 财报电话会确认第三代 Optimus 年中亮相,7-8 月弗里蒙特工厂量产,2026 下半年交付企业客户
- 星动纪元: https://www.stcn.com/article/detail/1865545.html" target="_blank" rel="noopener noreferrer">完成超 2 亿美元融资(顺丰领投),确认 PMF,Q2 启动千台级交付部署于中国邮政及顺丰物流中心
- 宇树科技: http://finance.sina.com.cn/7x24/2026-04-23/doc-inhvntew5004195.shtml" target="_blank" rel="noopener noreferrer">发布轮足双模人形机器人视频,展示滑冰、360度旋转、前空翻等高动态动作
下週觀察清單
- 小米 Xiaomi-Robotics-0 开源工作流的社区复现进展——20小时数据达亚毫米精度的声明需要独立验证
- 特斯拉 Optimus 第三代细节披露(预计 5-6 月),关注 VLA 控制架构是否引入世界模型组件
- openpi/openvla 社区在 LIBERO 基准的训练成功率断崖问题——数据管道配置与模拟器参数对齐的解决方案
- 自变量机器人 WALL-B 搭载机器人 5 月 25 日进入真实家庭的实际表现——首个消费级 VLA 家庭部署案例
- MiMo-Embodied 跨域统一架构(自动驾驶+具身AI)的工程可行性——17 个基准刷新是否可复现