VoLo: A Physical Orchestrator for Open-Vocabulary Long-Horizon Manipulation
Siyi Chen et al. · 提出 VoLo 框架,通过物理感知编排器解决长视界操作中的规划与恢复问题。亮点在于将 VLM 推理与底层控制解耦,提供可复用的故障恢复机制,适合处理复杂多物体场景。
Siyi Chen et al. · 提出 VoLo 框架,通过物理感知编排器解决长视界操作中的规划与恢复问题。亮点在于将 VLM 推理与底层控制解耦,提供可复用的故障恢复机制,适合处理复杂多物体场景。
Ziqian Wang et al. · 提出 Q-VGM 方法,利用离线 RL 优化 Flow-Matching VLA 策略。核心贡献是解决了流匹配策略微调中的效率瓶颈,为 VLA 的 RL 精调提供了新的算法路径,具有明确的工程应用价值。
Khanh D. Nguyen et al. · 基于 llama.cpp 构建的 VLA C++ 推理运行时,解决 PyTorch 在嵌入式设备上的部署难题。本周即可复用,显著降低 VLA 在边缘端的计算门槛,是极具实用价值的工程工具。
Ji Woong Kim et al. · 针对第一人称人类和机器人数据设计 VLA 微调方法,缓解数据稀缺问题。提供明确的数据对齐策略,有助于利用互联网规模的人类视频数据增强 VLA 泛化能力,具备实操性。
Shanglin Yuan et al. · 在 VLA 中注入几何运动信息以消除长视界操作的歧义。通过引入时空证据提升策略准确性,是对现有 VLA 输入模态的有效补充,具有明确的性能提升潜力。
Linqi Yin et al. · 提出通过具身轨迹耦合数据弥合 VLM 与 VLA 差距的方法。核心贡献在于数据构建策略,为将通用 VLM 转化为可控 VLA 提供了清晰路径,具有较高的复用价值。
Yuan Zhang et al. · 学习几何感知的动作表示以提升 VLA 在未见物体和背景下的泛化性。通过统一几何特征解决部署难题,是对 VLA 表征学习的重要改进,实验覆盖多个基准。
Haotian He et al. · 提出力觉感知世界动作模型,用于闭环接触丰富操作。填补触觉 VLA 方向空白,充分利用力信号建模交互动力学,显著提升接触任务的鲁棒性,值得重点关注。
Zhexuan Zhou et al. · 在潜在空间塑造扩散策略,分离场景理解与轨迹生成。解决原始动作空间混淆问题,提升采样效率与策略质量,是对扩散策略架构的有效优化。
Yunfan Lou et al. · 提出统一触觉世界动作模型 Dream-Tac,解决接触丰富操作中视觉线索不足的问题。填补触觉 VLA 空白,通过预测未来观测引导动作,显著提升接触任务性能。
Raktim Gautam Goswami et al. · 统一对象中心世界模型与扩散策略,构建分层框架处理多阶段任务。结合 MPC 与扩散策略优势,提升复杂任务的规划能力,是对 VLA 控制架构的有效扩展。
Jia Zheng et al. · 提出 MotionWAM,旨在实现人形机器人实时移动操作的世界动作模型。解决迭代去噪速度慢的问题,推动 WAM 向实时控制迈进,具有明确的工程突破。
Suyeon Shin et al. · 通过预想象里程碑选择实现 VLA 策略的故障恢复。将偏离状态拉回熟悉空间,提升长视界操作的鲁棒性,是解决 VLA 实际部署痛点的有效方案。
Huaihang Zheng et al. · 提出触觉引导的在线 RL 方法 TORL-VLA,用于接触丰富操作。结合触觉反馈与在线学习,克服离线 VLA 在动态接触任务中的局限,填补触觉 RL 方向空白。
Yichen Niu et al. · 仅凭单目 RGB-D 视频学习灵巧操作,无需预扫描物体资产。虽具创新性,但主要依赖仿真或特定设置验证,缺乏大规模真实机器人基准测试,暂归为值得了解。
Xiaoqian Wu et al. · 重新审视机器人操作中的关节部件感知问题。属于感知层面的改进,虽对操作重要,但未直接涉及 VLA 架构或训练范式的创新,且缺乏跨平台迁移的广泛验证。
Markus Knauer et al. · 结合 VLA 与任务参数化学习实现技能选择与组合。方法相邻但侧重于传统技能库的调用逻辑,非 VLA 核心架构创新,且实验主要在仿真环境,真实性能待考。
Songlin Wei et al. · 为人形机器人移动操作提供仿真基准与评估框架。作为数据集/基准类工作,重要性高但不紧急,且纯仿真验证缺乏真实世界鲁棒性证明,归为值得了解。
Lingxuan Wu et al. · 针对扩散策略的物理安全对齐方法,通过自进化机制满足严格约束。虽涉及安全关键领域,但主要聚焦于约束满足而非 VLA 核心智能提升,且实验范围有限。
Dongli Wu et al. · 利用 3D 基础模型先验进行重建驱动的抓取。属于感知与抓取的经典结合,未体现 VLA 特有的语言-动作对齐优势,且缺乏在开放词汇场景下的广泛验证。
Haoyang Ge et al. · 生成适应场景上下文的人形机器人全身运动。侧重于运动生成与控制,虽与 VLA 相关,但更偏向底层运动基元,未直接解决高层语义到动作的映射瓶颈。
Zehao Yu et al. · 建立从仿真数据采集到人形机器人真实移动操作的流程。侧重系统工程与数据管道,虽实用但方法论创新有限,且主要成果为数据集与流程规范。
Kunqi Xu et al. · 强调物理保真度对稳健操作的重要性,并可能提供相关基准或分析。属于实证研究或基准类工作,旨在揭示仿真-现实差距,不直接提供新算法。
Zechu Li et al. · 提供用于代理机器人 RL 的工程框架 HARBOR。简化任务构建与奖励塑造流程,是优秀的工程工具,但非算法层面的 VLA 创新,归类为基础设施。
Aryan Naveen et al. · 利用自然语言描述估计 3D 场景的空间信念。属于感知与语言融合的前沿探索,但尚未形成完整的 VLA 控制闭环,更多是状态估计层面的贡献。
Ruihua Han et al. · 轻量级技能原生模拟器 IR-SIM,支持导航与学习基准测试。作为仿真工具,加速原型开发,但本身不涉及 VLA 核心算法创新,归为基础设施。
Dian Yu et al. · 利用扩散策略引导新行为的发现,解决演示数据有限时的探索问题。侧重于行为生成的多样性,虽有用但未触及 VLA 的核心语义对齐或泛化瓶颈。
Yunhai Han et al. · 从单个人体视频实现端到端灵巧技能获取。虽流程完整,但依赖复杂的 Sim2Real 转换,且仅在少数任务验证,泛化能力存疑,归为值得了解。
Yi Yu et al. · 在低成本 SO-101 机器人上基准测试 VLA 模型,分析失败与恢复。提供宝贵的真实世界鲁棒性数据,但属于评估分析类工作,无新算法提出。
Yuying Zhang et al. · 基于检索引导的单演示模仿学习方法。虽具样本效率优势,但主要依赖检索机制,未深入结合 VLA 的语义理解能力,且实验规模较小。