VLA 週報
基於 VLA-Handbook 7 天系統數據
TL;DR
- PointACT 突破 2D 视觉瓶颈,引入多尺度点云交互实现 3D 空间精准操作,刷新 LIBERO 基准。
- 产业端特斯拉关闭经典车型产线全面转向人形机器人,智平方发布 VLA 2026 回应重新定义架构。
- Genesis v0.4.7 新增触觉传感器支持,仿真引擎加速向多模态物理交互演进。
Spotlight
https://arxiv.org/abs/2605.21414" target="_blank" rel="noopener noreferrer">PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction
提出 PointACT 架构,通过多尺度点云-动作交互机制克服现有 VLA 依赖 2D 视觉表征的局限,直接建立视觉特征与 3D 动作空间的映射。
现有 VLA 严重依赖 2D 图像,导致在精细 3D 空间推理和几何 grounding 上存在先天缺陷。PointACT 引入点云作为辅助模态,在 LIBERO 等基准上显著超越 SOTA。结合社区实战中反复验证的“Sim2Real 效果差往往源于几何/物理参数未校准”痛点,该工作证明引入显式 3D 几何信息是突破当前操作精度瓶颈的关键路径。
显式 3D 几何表征将成为下一代高精度 VLA 的标配,弥补了纯 2D 视觉策略的致命短板。
https://arxiv.org/abs/2605.15157" target="_blank" rel="noopener noreferrer">Hand-in-the-Loop: Improving VLA Policies for Dexterous Manipulation via Seamless Hand-Arm Intervention
提出无缝手-臂干预机制,通过交互式模仿学习(IIL)纠正 VLA 在灵巧操作中的累积误差,解决人类遥操作与策略执行间的指令不匹配问题。
高自由度机械手在长视界接触丰富任务中极易因策略微小偏差导致误差累积。该工作允许人类在推理时无缝介入并修正动作,为提升 VLA 在复杂装配任务中的鲁棒性提供了极具工程价值的方案。社区反馈长期受困于长程任务成功率低,这种人机协同的实时纠错机制大幅降低了复杂接触任务的部署风险。
为长视界灵巧操作提供了可靠的实时纠错范式,是 VLA 走向高可靠性实机部署的必经之路。
SOTA 變化
- CALVIN ABC-D: MMaDA-VLA 以 4.78 刷新 avg_len 纪录(+0.03)
- 边际提升仅 +0.03,基准高度饱和,刷分收益趋近于零,社区亟需转向更具物理挑战性的评估。
- LIBERO standard-closed: LaST-R1 达到 99.8%(+1.00 over Dual-CoT VLA)
- 逼近理论极限,传统 2D 视觉策略在该基准上已彻底丧失区分度,验证了架构创新的必要性。
- LIBERO Plus: CorridorVLA 跃升至 83.21(+3.81 over NS-VLA)
- 高难度变体基准仍保留较大提升空间,正成为验证 VLA 真实泛化能力与长程规划的核心战场。
本週發布
- https://github.com/Genesis-Embodied-AI/genesis-world/releases/tag/v0.4.7" target="_blank" rel="noopener noreferrer">Genesis v0.4.7: 新增触觉传感器类型并优化现有射线投射与触觉反馈,提供实验性交互查看器插件。为 VLA 策略训练提供更丰富的多模态物理交互仿真环境,加速触觉感知与视觉策略的融合测试。
產業動態
- 特斯拉 (Tesla): http://k.sina.com.cn/article_5953189932_162d6782c06704b51a.html" target="_blank" rel="noopener noreferrer">5月21日正式宣布关闭 Model S/X 经典车型产线,将制造资源与产能全面转向人形机器人赛道。
- 智平方AI²机器人 (Zhipingfang): 5月20日发布《VLA过时吗?2026回应》,正式将 VLA 范式升级为融合世界模型与类脑智能的开放框架,反驳行业“VLA已死”论调。
- 矩阵超智 (Matrix Superintelligence): 5月18日发布 MATRIX-3 旗舰人形机器人(33自由度机身+27自由度灵巧手),起售价58万,宣布Q3启动量产交付。
观察清单 WATCH LIST
下週觀察清單
- PointACT 开源代码与权重发布后的社区复现情况,验证 3D 点云交互在真实硬件上的延迟与精度收益。
- 特斯拉产能转向后,Optimus 的 VLA 策略部署是否会因硬件规模化而迎来真实世界数据飞轮效应。
- Genesis v0.4.7 触觉传感器模块是否会被主流 VLA 训练管线快速集成,推动触觉仿真基准的更新。
- 智平方的“开放框架”定义能否引发学术界对 VLA 架构的重新评估,带动世界模型与 VLA 融合的新论文潮。