BifrostUMI: Bridging Robot-Free Demonstrations and Humanoid Whole-Body Manipulation
Chenhao Yu et al. · 提出 BifrostUMI,利用无机器人演示数据训练人形全身操作策略,解决数据采集瓶颈。为低成本获取高质量人形机器人训练数据提供了可行路径。
Chenhao Yu et al. · 提出 BifrostUMI,利用无机器人演示数据训练人形全身操作策略,解决数据采集瓶颈。为低成本获取高质量人形机器人训练数据提供了可行路径。
Sarvesh Patil et al. · 提出 OGPO 算法,实现生成式控制策略(如 Diffusion Policy)的高效全量微调。显著降低样本需求,可直接应用于现有 VLA 模型的离线强化学习精调。
Haiqin Cui et al. · 开源低成本双臂移动操作平台 AhaRobot,旨在降低 VLA 数据收集门槛。提供完整硬件设计与 teleoperation 接口,适合团队快速构建数据采集系统。
Yi Ru Wang et al. · 推出 RoboEval 评估框架,引入行为与结果指标以替代单一成功率。为 VLA 策略提供更细粒度的性能分析工具,有助于诊断模型在复杂任务中的具体缺陷。
Shaqi Luo et al. · 扩展 UMI 范式至多模态交互,引入物理接触信号以增强机器人学习的物理 grounding。为提升 VLA 在接触丰富任务中的表现提供了新的数据收集维度。
Zhen Zhang et al. · 提出 FingerViP 系统,利用指尖视觉感知解决灵巧操作中手腕视角遮挡问题。在真实世界灵巧操作任务中显著提升性能,为触觉/视觉融合 VLA 提供新视角。
Yubai Wei et al. · 实证研究显式物理可行性约束对 VLA 学习的影响。揭示传统模仿学习中忽略物理约束的弊端,为改进 VLA 训练目标和损失函数提供关键工程洞见。
Om Mandhane et al. · 开发 Phone2Act 手机遥操作系统,实现低成本、硬件无关的 VLA 数据收集。极大降低数据获取门槛,本周即可部署用于扩充多样化操作数据集。
Berk \c{C}i\c{c}ek et al. · 提出 CoRAL,利用 LLM 进行接触丰富操作的自适应控制。结合高层语义推理与底层控制,为解决 VLA 在复杂接触任务中的局限性提供新思路。
Jinhao Li et al. · 提出 STEP 方法,通过时空一致性预测预热视觉运动策略,加速 Diffusion Policy 推理。显著减少去噪步数,可直接集成以提升现有 VLA 模型的实时性。
Hao Wu et al. · 提出 RoboAlign-R1,通过蒸馏多模态奖励对齐机器人视频世界模型。改善世界模型对指令跟随能力的对齐,为基于世界模型的 VLA 规划提供新训练目标。
Dongyoung Kim et al. · 技术报告,介绍 RLDX-1 VLA 模型。摘要未提供具体架构创新或基准测试对比数据,缺乏评估其战略价值的量化证据。
Zhiyuan Li et al. · 通过解耦跨实体视频编辑来缩小人机形态差异,旨在从人类视频学习机器人操作。目前仅涉及视觉表征对齐,缺乏明确的机器人控制策略验证。
Xiao Li et al. · 具身智能安全综述,涵盖风险、攻击与防御。属于重要但非紧急的背景知识梳理,不直接提供新的 VLA 算法或工程实现方案。
Zichao Hu et al. · 针对人形机器人推重物任务,结合视觉目标与力自适应控制。虽涉及具身控制,但侧重于特定技能而非通用 VLA 架构,且缺乏大规模泛化实验。
Bin Xu et al. · 优化 GPU 上 CUDA 与 Vulkan 的资源共享,加速具身 AI 仿真环境。属于底层系统优化,虽有益但非 VLA 算法核心进展,适用性较窄。
Haoshen Zhang et al. · 提出 IMPACT-HOI 框架用于标注人机交互视频事件图。作为数据预处理工具,间接支持机器人学习,但本身不涉及控制策略或 VLA 架构。
Zijian An (Luna) et al. · 集成 VLA 的低成本软体抓取平台 VILAS。主要贡献在于硬件系统集成,算法层面未见显著创新,更多是工程实现案例。
Sergio Orozco et al. · 学习等变神经增强的物体动力学模型,适用于可变形物体。侧重动力学建模而非端到端 VLA 控制,方法相邻但应用路径尚不明确。
Muyang He et al. · 综述视频生成模型作为世界模型的范式与算法。理论性强,但未提供具体的机器人控制应用方案或实证结果,属于背景阅读材料。
Ho Jae Lee et al. · 分层 RL 与 QP 控制结合的灵巧抓取方法。侧重传统控制与 RL 混合架构,未体现 VLA 的多模态语言条件特性,与主流 VLA 研究方向偏离。
Keon Woo Kim · 探讨充分性约束下的世界模型潜状态设计。理论深度高,但缺乏具体的机器人实验验证,难以直接转化为 VLA 架构改进。
Jianjie Fang et al. · 提出交互式世界模型基准及统一动作生成框架。虽涉及动作生成,但重点在于评估基准构建,对 VLA 算法本身的直接推动有限。
Haoyu Wu et al. · 结合视频扩散与 3D 表示以实现几何一致的世界建模。侧重视觉表征学习,未明确展示其在机器人控制策略中的应用效果。