Skip to content
WEEKLY RECON | 2026.04.11 – 04.17

前瞻偵察前瞻侦察 · 2026年4月17日

意外信號意外信号 可證偽命題可证伪命题 觀察清單观察清单

2026-04-10 to 2026-04-17

VLA 週報

基於 VLA-Handbook 7 天系統數據

TL;DR

  • HAMLET (CMU) 首创历史感知 VLA 架构,解决传统 VLA 忽略时间依赖性的核心缺陷,多基准显著优于 SOTA
  • 开源生态两极分化:lerobot (52 issues) 与 isaaclab (36 issues) 主导,openvla/act 等早期项目进入休眠
  • 智元 4/17 合作伙伴大会发布 4 款新本体 +4 个 AI 大模型,宇树 H1 创 10m/s 人形机器人速度纪录

Spotlight

https://arxiv.org/abs/2510.00695" target="_blank" rel="noopener noreferrer">HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy

CMU 提出首个将历史上下文显式融入 VLA 架构的框架,解决传统 VLA 仅依赖当前观测、忽略时间依赖性的核心缺陷。

核心贡献在于提出 scalable 的历史感知模块,可即插即用适配现有 VLA。在多个长程操作基准上显著优于 SOTA,验证了历史上下文对长程任务的关键价值。工程落地价值高:无需重新训练完整 VLA,只需适配历史感知模块。社区验证信号:lerobot 24 条评论的校准问题 (#1296) 反映硬件适配痛点,HAMLET 的历史感知可能缓解此类时序依赖问题。但需注意:摘要未披露计算开销,实时部署需评估延迟影响。

极具战略价值的架构改进,建议触觉+VLA 方向团队优先跟进。

https://arxiv.org/abs/2511.04671" target="_blank" rel="noopener noreferrer">X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations

Berkeley 提出利用跨具身人类视频训练扩散策略,解决人机形态差异导致的数据利用难题。

方法允许直接使用海量人类视频数据,大幅降低机器人数据采集成本。核心创新在于学习 coarse guidance 而不迁移 embodiment-specific 的不可执行策略。与 Community Field Notes 中 SmolVLA (450M 参数,<30k episodes) 形成互补:X-Diffusion 解决数据来源,SmolVLA 解决训练效率。工程价值:对于数据稀缺的团队,可直接利用 YouTube 等人类视频资源。但需注意:摘要未说明如何保证生成动作的物理可行性,落地前需验证动作空间映射质量。

数据采集瓶颈的潜在突破方案,适合资源有限的团队探索。

SOTA 變化

  • LIBERO Plus: TAG 达 87.24 (standard-closed),较 FutureVLA +7.54
  • 封闭场景任务接近饱和,未来增量将来自开放场景与动态环境。
  • CALVIN ABC-D: MMaDA-VLA 达 4.78 (avg_len),较 Xiaomi-Robotics-0 +0.03
  • CALVIN 基准进入微幅竞争阶段,0.03 级提升需警惕过拟合风险。
  • LIBERO non-standard: PLD 达 99.17 (average)
  • 非标准分割接近完美,建议后续评估优先采用 standard-closed 避免天花板效应。

本週發布

產業動態

下週觀察清單

  • 智元 4/17 大会实际发布内容验证:4 款本体是否含 VLA 集成、4 个 AI 大模型的技术细节
  • HAMLET 代码开源进度:若 2 周内释放代码,将触发社区复现热潮
  • Genesis v0.4.6 社区反馈:AMD GPU 兼容性修复效果 (参考 Issue #2570 LLVM 错误)
  • lerobot 中文文档翻译进展 (#3290):12 条评论显示亚太区开发者需求上升