World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy
Xiaokang Liu et al. · 提出 World-VLA-Loop,实现视频世界模型与 VLA 策略的闭环联合学习。解决真实世界 RL 昂贵且危险的核心瓶颈,在多个基准上展现显著优于 BC 的泛化能力。
Xiaokang Liu et al. · 提出 World-VLA-Loop,实现视频世界模型与 VLA 策略的闭环联合学习。解决真实世界 RL 昂贵且危险的核心瓶颈,在多个基准上展现显著优于 BC 的泛化能力。
提出针对 VLA 的样本高效 RL 微调框架 EXPO-FT,解决预训练策略在真实任务中可靠性不足的问题。提供可复用的 RL 精调方案,提升 VLA 在特定任务上的表现。
Runze Wang et al. · 通过内部化 affordance 机制增强 VLA 的空间推理能力,解决复杂场景中交互点定位难题。引入动作对齐的视觉规划模块,显著提升操作精度。
Yufei Jia et al. · 为 MuJoCo 提供持久化批量运行时原语,支持在线机器人学习和批量物理评估。显著加速仿真环境下的 VLA 训练与评估流程,工程价值高。
Zhi (Leo) et al. · 利用少量人类第一人称视频实现零样本机器人技能迁移,克服视觉外观和运动学差异。提供跨形态技能转移的新路径,对 VLA 数据扩展有重要启示。
Boyu Li et al. · 提出跨实体扩散动作头 X-DiffVLA,解决多实体数据统一策略学习的挑战。无需针对特定实体微调即可实现跨平台迁移,增强 VLA 通用性。
Sizhe Zhao et al. · 提出推理时采样策略 TapSampling,结合任务进度理解验证器提升生成式模型性能。为 VLA 推理阶段提供新的优化手段,无需重新训练即可改善结果。
Xinzhe Chen et al. · 通过 SE(3) 轨迹预测实现观测-动作空间对齐,增强 VLA 和世界动作模型的空间表征。解决现有模型空间特征缺失问题,提升操作几何准确性。
Masaki Murooka et al. · 发布 RoboManipBaselines 开源框架,统一仿真与真机环境下的模仿学习流程。涵盖数据收集到部署全链路,极大降低 VLA 研究门槛,本周即可复用。
Ulas Berk Karli et al. · 提出 INSIGHT 框架,通过推理时序列自省预测失败并触发人工辅助。增强 VLA 的安全性与人机协作能力,提供可集成的故障检测模块。
Weikang Qiu et al. · 通过静态-动态解耦提升长视界 VLA 的效率,分离背景信息与动态变化部分。优化计算资源分配,显著延长有效规划 horizon,具备明确工程价值。
Hanzhen Wang et al. · 提出动作感知自推测剪枝 SpecPrune-VLA,加速 VLA 推理过程。针对计算密集型模型提供有效的推断优化方案,可直接应用于现有 VLA 部署以提升速度。
Xueyang Zhou et al. · 发布 LIBERO-PRO 基准,修正原有设置导致的性能膨胀问题,推动更公平的 VLA 评估。提供去记忆化的测试套件,对社区评估标准具有即时实用价值。
Jiahui Zuo et al. · 针对打结任务提出从无序关键点学习视觉 affordance 的方法,解决变形线性物体操控难点。虽具创新性但局限于特定任务,缺乏通用 VLA 架构贡献。
Kai Fang et al. · 改进流匹配策略的动作分块连续性,通过先验校正正交信任域引导消除边界不连续。属于控制算法优化,非 VLA 核心架构或训练范式创新。
Aysu Aylin Kaplan et al. · 提出基于成本总和扩散的动态引导运动规划方法,旨在提高泛化性。主要关注路径规划而非端到端 VLA 策略学习,与核心 VLA 研究距离较远。
Kunyun Wang et al. · 探索潜在空间中高频连续动作分块的学习,以弥补中等频率下的时间一致性不足。侧重于动作表示细节优化,未涉及 VLA 整体架构或数据效率突破。
Pengfei Ye et al. · 构建全局不变且唯一索引的点云框架,用于鲁棒的 6-DoF 触觉姿态跟踪。聚焦触觉感知底层技术,虽对灵巧操作重要但未直接整合进 VLA 决策闭环。
Wenhui Chu · 通过表示引导适配将 SAM 等基础模型应用于机器人视觉,解决 Transformer 层间表示偏移问题。属于感知模块优化,未直接触及 VLA 动作生成核心。
Francesco Cufino et al. · 研究合规机器人在人群环境中进行非抓取推挤操作的安全性。侧重传统控制与安全约束,缺乏 VLA 相关的语言指令跟随或泛化能力展示。
Hong Su · 提出思维-学习交互模型以应对开放环境中非预定义对象的学习。概念新颖但摘要缺乏具体 VLA 架构细节及量化实验支撑,偏向理论探讨。 [💧灌水]
Yurou Yang et al. · 分析几何基础模型(如 VGGT)对 VLA 性能的影响,揭示 3D 重建与 VLA 结合的潜力。属于消融分析与洞察报告,未提出新架构或显著 SOTA 提升。
Cuong Huynh et al. · 利用多模态语言模型实现零样本 3D 点云视觉定位,解决自然语言描述的对象局部化问题。侧重感知与 grounding,未直接关联 VLA 的动作执行策略。
Yijiong Lin et al. · 利用神经描述场生成精确抓取姿态,解决视触对齐难题以实现 Sim-to-Real 转移。聚焦触觉控制底层,未体现 VLA 的语言指令遵循或多任务泛化特性。
Yinlong Dai et al. · 探索将语言模型扎根于机器人运动的基元方法,旨在从自然语言指令执行新颖任务。侧重运动基元与语言的对齐,非端到端 VLA 架构的直接改进。
Zhenhao Huang et al. · 构建少样本神经可微模拟器,解决刚体接触建模中真实到仿真的鸿沟。虽提升仿真保真度,但主要贡献在物理模拟层面,非 VLA 策略学习核心。
Zijian An et al. · 介绍 VILAS 低成本模块化机器人平台,集成软抓取与 VLA 策略部署。属于硬件系统搭建,方法论创新有限,主要服务于特定场景的应用落地。
Yunyang Mo et al. · 利用在线人类偏好指导 RL 探索,解决真实世界部署中的低效与安全问题。侧重 RL 奖励塑造与人机交互,未直接针对 VLA 架构本身进行改进。
Weilong Guo et al. · 尝试用视觉基元替代单一前向传递来映射语言与视觉到动作,探索中间表示。概念初步,摘要未展示充分对比实验或明确的 SOTA 超越证据。 [💧灌水]
Xiao Li et al. · 综述具身智能的安全风险、攻击与防御措施,涵盖交通等领域。作为综述文章提供宏观视角,但不包含具体的 VLA 技术突破或可立即复用的新方法。