VLA 週報
基於 VLA-Handbook 7 天系統數據
TL;DR
- HAMLET (CMU) 首创历史感知 VLA 架构,解决传统 VLA 忽略时间依赖性的核心缺陷,多基准显著优于 SOTA
- 开源生态两极分化:lerobot (52 issues) 与 isaaclab (36 issues) 主导,openvla/act 等早期项目进入休眠
- 智元 4/17 合作伙伴大会发布 4 款新本体 +4 个 AI 大模型,宇树 H1 创 10m/s 人形机器人速度纪录
Spotlight
https://arxiv.org/abs/2510.00695" target="_blank" rel="noopener noreferrer">HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy
CMU 提出首个将历史上下文显式融入 VLA 架构的框架,解决传统 VLA 仅依赖当前观测、忽略时间依赖性的核心缺陷。
核心贡献在于提出 scalable 的历史感知模块,可即插即用适配现有 VLA。在多个长程操作基准上显著优于 SOTA,验证了历史上下文对长程任务的关键价值。工程落地价值高:无需重新训练完整 VLA,只需适配历史感知模块。社区验证信号:lerobot 24 条评论的校准问题 (#1296) 反映硬件适配痛点,HAMLET 的历史感知可能缓解此类时序依赖问题。但需注意:摘要未披露计算开销,实时部署需评估延迟影响。
极具战略价值的架构改进,建议触觉+VLA 方向团队优先跟进。
https://arxiv.org/abs/2511.04671" target="_blank" rel="noopener noreferrer">X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations
Berkeley 提出利用跨具身人类视频训练扩散策略,解决人机形态差异导致的数据利用难题。
方法允许直接使用海量人类视频数据,大幅降低机器人数据采集成本。核心创新在于学习 coarse guidance 而不迁移 embodiment-specific 的不可执行策略。与 Community Field Notes 中 SmolVLA (450M 参数,<30k episodes) 形成互补:X-Diffusion 解决数据来源,SmolVLA 解决训练效率。工程价值:对于数据稀缺的团队,可直接利用 YouTube 等人类视频资源。但需注意:摘要未说明如何保证生成动作的物理可行性,落地前需验证动作空间映射质量。
数据采集瓶颈的潜在突破方案,适合资源有限的团队探索。
SOTA 變化
- LIBERO Plus: TAG 达 87.24 (standard-closed),较 FutureVLA +7.54
- 封闭场景任务接近饱和,未来增量将来自开放场景与动态环境。
- CALVIN ABC-D: MMaDA-VLA 达 4.78 (avg_len),较 Xiaomi-Robotics-0 +0.03
- CALVIN 基准进入微幅竞争阶段,0.03 级提升需警惕过拟合风险。
- LIBERO non-standard: PLD 达 99.17 (average)
- 非标准分割接近完美,建议后续评估优先采用 standard-closed 避免天花板效应。
本週發布
- https://github.com/Genesis-Embodied-AI/Genesis/releases/tag/v0.4.6" target="_blank" rel="noopener noreferrer">Genesis v0.4.6: 将 CUDA-only 性能优化扩展至所有 GPU 后端,放松 CUDA Toolkit 要求,修复所有报告的 CUDA 崩溃问题。
- https://github.com/google-deepmind/mujoco/releases/tag/3.7.0" target="_blank" rel="noopener noreferrer">MuJoCo 3.7.0: 标准版本更新,详见 changelog。
產業動態
- 智元机器人: http://k.sina.com.cn/article_5952915705_162d248f906702reyo.html" target="_blank" rel="noopener noreferrer">4/17 举办 2026 合作伙伴大会,发布 4 款新人形机器人本体、4 个 AI 大模型、7 套解决方案及开放数据集
- 宇树科技: http://finance.sina.com.cn/wm/2026-04-12/doc-inhufkkh0606897.shtml" target="_blank" rel="noopener noreferrer">4/11 H1 人形机器人创 10m/s 冲刺速度世界纪录 (百米 10 秒),接近博尔特人类纪录
- 上海灵初智能: 4/14 完成新一轮融资 (国投先导/京西瑞瓴),距上月 2 亿元天使轮仅 1 个月,聚焦 VLA 大模型与灵巧操作
观察清单 WATCH LIST
下週觀察清單
- 智元 4/17 大会实际发布内容验证:4 款本体是否含 VLA 集成、4 个 AI 大模型的技术细节
- HAMLET 代码开源进度:若 2 周内释放代码,将触发社区复现热潮
- Genesis v0.4.6 社区反馈:AMD GPU 兼容性修复效果 (参考 Issue #2570 LLVM 错误)
- lerobot 中文文档翻译进展 (#3290):12 条评论显示亚太区开发者需求上升