2026-04-10 to 2026-04-17

VLA 週報

基於 VLA-Handbook 7 天系統數據

TL;DR

HAMLET (CMU) 首创历史感知 VLA 架构，解决传统 VLA 忽略时间依赖性的核心缺陷，多基准显著优于 SOTA
开源生态两极分化：lerobot (52 issues) 与 isaaclab (36 issues) 主导，openvla/act 等早期项目进入休眠
智元 4/17 合作伙伴大会发布 4 款新本体 +4 个 AI 大模型，宇树 H1 创 10m/s 人形机器人速度纪录

Spotlight

https://arxiv.org/abs/2510.00695" target="_blank" rel="noopener noreferrer">HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy

CMU 提出首个将历史上下文显式融入 VLA 架构的框架，解决传统 VLA 仅依赖当前观测、忽略时间依赖性的核心缺陷。

核心贡献在于提出 scalable 的历史感知模块，可即插即用适配现有 VLA。在多个长程操作基准上显著优于 SOTA，验证了历史上下文对长程任务的关键价值。工程落地价值高：无需重新训练完整 VLA，只需适配历史感知模块。社区验证信号：lerobot 24 条评论的校准问题 (#1296) 反映硬件适配痛点，HAMLET 的历史感知可能缓解此类时序依赖问题。但需注意：摘要未披露计算开销，实时部署需评估延迟影响。

极具战略价值的架构改进，建议触觉+VLA 方向团队优先跟进。

https://arxiv.org/abs/2511.04671" target="_blank" rel="noopener noreferrer">X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations

Berkeley 提出利用跨具身人类视频训练扩散策略，解决人机形态差异导致的数据利用难题。

方法允许直接使用海量人类视频数据，大幅降低机器人数据采集成本。核心创新在于学习 coarse guidance 而不迁移 embodiment-specific 的不可执行策略。与 Community Field Notes 中 SmolVLA (450M 参数，<30k episodes) 形成互补：X-Diffusion 解决数据来源，SmolVLA 解决训练效率。工程价值：对于数据稀缺的团队，可直接利用 YouTube 等人类视频资源。但需注意：摘要未说明如何保证生成动作的物理可行性，落地前需验证动作空间映射质量。

数据采集瓶颈的潜在突破方案，适合资源有限的团队探索。

SOTA 變化

LIBERO Plus: TAG 达 87.24 (standard-closed)，较 FutureVLA +7.54
封闭场景任务接近饱和，未来增量将来自开放场景与动态环境。
CALVIN ABC-D: MMaDA-VLA 达 4.78 (avg_len)，较 Xiaomi-Robotics-0 +0.03
CALVIN 基准进入微幅竞争阶段，0.03 级提升需警惕过拟合风险。
LIBERO non-standard: PLD 达 99.17 (average)
非标准分割接近完美，建议后续评估优先采用 standard-closed 避免天花板效应。

本週發布

https://github.com/Genesis-Embodied-AI/Genesis/releases/tag/v0.4.6" target="_blank" rel="noopener noreferrer">Genesis v0.4.6: 将 CUDA-only 性能优化扩展至所有 GPU 后端，放松 CUDA Toolkit 要求，修复所有报告的 CUDA 崩溃问题。
https://github.com/google-deepmind/mujoco/releases/tag/3.7.0" target="_blank" rel="noopener noreferrer">MuJoCo 3.7.0: 标准版本更新，详见 changelog。

產業動態

智元机器人: http://k.sina.com.cn/article_5952915705_162d248f906702reyo.html" target="_blank" rel="noopener noreferrer">4/17 举办 2026 合作伙伴大会，发布 4 款新人形机器人本体、4 个 AI 大模型、7 套解决方案及开放数据集
宇树科技: http://finance.sina.com.cn/wm/2026-04-12/doc-inhufkkh0606897.shtml" target="_blank" rel="noopener noreferrer">4/11 H1 人形机器人创 10m/s 冲刺速度世界纪录 (百米 10 秒)，接近博尔特人类纪录
上海灵初智能: 4/14 完成新一轮融资 (国投先导/京西瑞瓴)，距上月 2 亿元天使轮仅 1 个月，聚焦 VLA 大模型与灵巧操作

观察清单 WATCH LIST

下週觀察清單

智元 4/17 大会实际发布内容验证：4 款本体是否含 VLA 集成、4 个 AI 大模型的技术细节
HAMLET 代码开源进度：若 2 周内释放代码，将触发社区复现热潮
Genesis v0.4.6 社区反馈：AMD GPU 兼容性修复效果 (参考 Issue #2570 LLVM 错误)
lerobot 中文文档翻译进展 (#3290)：12 条评论显示亚太区开发者需求上升