Being-H0.7: A Latent World-Action Model from Egocentric Videos
Hao Luo et al. · 提出基于第一人称视频的潜在世界-动作模型,旨在解决稀疏动作监督导致的捷径学习问题。通过引入世界模型约束增强VLA的表征能力,为提升泛化性提供新视角。
Hao Luo et al. · 提出基于第一人称视频的潜在世界-动作模型,旨在解决稀疏动作监督导致的捷径学习问题。通过引入世界模型约束增强VLA的表征能力,为提升泛化性提供新视角。
Yajvan Ravan et al. · 推出基于XR头显的生成式数据引擎Lucid-XR,利用vuer仿真环境实时生成多模态训练数据。为VLA研究者提供低成本、高多样性的数据采集与合成方案,本周即可尝试部署。
Hanxin Zhang et al. · 将视觉-动作归因建模为干预估计过程,揭示VLA分布偏移下的虚假相关性根源。提供可解释性分析工具,帮助调试VLA失败案例并指导因果特征对齐,具有明确诊断价值。
Yi Wang et al. · 探索通用机器人策略的大规模在线强化学习部署框架,解决离线预训练后的分布漂移与长尾失效问题。提供 fleet-scale RL 的工程洞见,对生产环境VLA迭代具直接参考意义。
Jinkun Liu et al. · 引入交错的视觉-语言推理轨迹(Reasoning Traces)以增强长程操作的逻辑连贯性与几何 grounding。为VLA提供显式规划中间层,代码/方法易于集成至现有Transformer架构中。
Huayi Zhou et al. · 提出基于视觉-语言锚点的双臂单样本学习方法,解决双臂协作中数据稀缺与泛化难题。通过VL引导实现高效模仿,为双臂VLA提供轻量化微调路径,具备较高复用价值。
Yuxuan Tian et al. · 构建时空动作中心的世界模型STARRY,强化预测表征与动作执行的耦合。通过解耦几何约束与动态预测,提升VLA在复杂交互场景下的鲁棒性,是对World-VLA范式的有力补充。
MotuBrain Team et al. · 提出统一世界动作模型MotuBrain,采用UniDiffuser联合建模视频与动作。旨在弥补VLA在细粒度动力学建模上的不足,为结合生成式世界模型与控制提供新架构参考。
Charles Xu et al. · 引入RL Token机制,利用VLA先验知识引导在线强化学习微调。解决纯RL样本效率低的问题,提供从离线VLA到在线精调的标准接口,显著提升策略收敛速度与精度。
Bohan Hou et al. · 全面综述世界模型在机器人学习中的应用,涵盖策略学习、规划及数据生成等方向。作为领域背景知识补充,适合快速了解现状但无即时工程复用价值。
Kaiyan Zhao et al. · 针对决策Transformer提出经验感知采样方法以改善长程任务性能。虽涉及操作控制,但属于对现有BC/DT框架的工程优化,缺乏架构级创新或显著SOTA突破。
Ali Al-Bustami et al. · 发布面向语言条件物体接近导航的仿真数据集MiniVLA-Nav v1,支持NVIDIA Nova Carter机器人。虽填补移动操作数据空白,但仅限仿真验证,暂缺真实世界迁移证据。
Xianbo Cai et al. · 提出立体多级空间注意力机制以应对移动操作中的尺度变化与干扰。侧重传统视觉感知模块优化,未深度融合VLA架构,且缺乏大规模基准对比,属相邻领域改进。
Xianbo Cai et al. · 针对双臂精细操作提出多级空间对齐方法以降低延迟并稳定定位。主要贡献在于控制层面的几何对齐,非VLA核心范式创新,且依赖特定硬件配置,通用性受限。
Quanyi Li · 深入分析VLA在组合泛化上的局限性,指出其虽能处理新指令但难以跨任务组合技能。属理论分析与错误剖析,无新算法提出,有助于理解当前SOTA瓶颈但无直接工程产出。
Abay Bektursun · 探索冻结文本预训练权重跨模态复用的可行性,在OGBench上取得小幅提升。虽涉及多模态对齐,但实验规模小且提升有限,更多是启发式探索而非系统性VLA进展。
Erlong Wang et al. · 发表关于液态金属界面放大连续触觉传感的研究,属新型传感器硬件创新。虽对触觉VLA有长期价值,但非算法或系统层面进展,需等待后续软件集成工作。
Sen Cui et al. · 从哈密顿力学视角重新审视生成式世界模型,强调物理一致性。属理论框架探讨,缺乏具体机器人实验验证,对当前VLA工程实践的直接指导意义有限。