Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
Qiuyue Wang et al. · 推出 Qwen-VLA,统一多任务、多环境及多形态机器人的 VLA 建模,展示显著的跨平台泛化能力。作为阿里通义实验室的大规模 VLA 工作,其在多个基准上的 SOTA 表现确立了新的行业标杆。
Qiuyue Wang et al. · 推出 Qwen-VLA,统一多任务、多环境及多形态机器人的 VLA 建模,展示显著的跨平台泛化能力。作为阿里通义实验室的大规模 VLA 工作,其在多个基准上的 SOTA 表现确立了新的行业标杆。
提出利用生成式监督信号增强 VLA 的具身智能,旨在弥合高层语义与底层动作间的差距。若方法可复现且能提升泛化性,对优化 VLA 训练范式具有直接参考价值。
Zhongyu Xia et al. · 通过引入 3D 空间和实例理解模块增强 VLA,解决现有模型在 3D 场景感知上的缺陷。提供具体的 3D 特征融合方案,有助于提升 VLA 在复杂空间任务中的表现。
Ye Li et al. · 提出动态推理机制以平衡 VLA 的计算成本与控制频率,实现高效实时操作。该方法为部署资源受限的 VLA 提供了可行的工程优化路径,具备较高的复用价值。
Shengyu Si et al. · 引入跨任务程序记忆转移机制,提升 VLA 在未见过任务中的泛化能力。通过显式建模过程知识,为解决 VLA 长程依赖和零样本迁移问题提供了新思路。
Zhongxi Chen et al. · 提出 BORA 框架,结合离线 RL 与在线残差适应,解决灵巧手 VLA 的高维控制难题。填补了 VLA 在灵巧操作领域的空白,方法具有明确的实机应用路径。
Marion Lepert et al. · 提出仅利用人类视频训练机器人操作策略的框架,解决数据稀缺问题。通过模拟人-机器人映射,为 VLA 预训练提供了可扩展的数据来源,具有极高的实用价值。
Zijian Zhang et al. · 提出前馈 3D 高斯世界模型以增强 VLA 的空间预测能力。结合 3DGS 与世界模型,为 VLA 提供了更丰富的几何先验,有助于提升复杂场景下的操作精度。
Zhi Wang et al. · 实现仅需几分钟人类第一人称视频即可零样本学习机器人操作,大幅降低数据门槛。解决了 embodiment gap 的关键痛点,为 VLA 数据扩展提供了极具潜力的新范式。
Dayuan Chen et al. · 针对柔性物体操作提出相位条件化 IL 框架及自主故障恢复机制,解决 ACT 等方法的马尔可夫假设局限。虽涉及 VLA 基线,但聚焦特定物理属性(柔性),通用性受限。
Victor Kowalski et al. · 通过真实世界 RL 将视觉启用策略蒸馏为无视觉策略,以增强接触丰富操作的鲁棒性。虽涉及 VLA 相关技术,但核心贡献在于 RL 蒸馏流程,非典型 VLA 架构改进。
Dehao Huang et al. · 提出校准 VLA 任务成功置信度的方法,支持风险敏感决策。属于 VLA 系统的可靠性增强模块,虽有用但非核心控制架构创新,适合作为辅助工具了解。
Sergey Arkhangelskiy · 发布真实机器人 VLA 基准 PhAIL 及分布评估方法论,强调统计显著性而非单一成功率。作为数据集/基准论文,对规范领域评估标准重要,但不提供新算法。
Jindou Jia et al. · 提出仅在必要时使用多模态信息的模仿学习策略,旨在提高策略效率。方法侧重于模态选择机制,与 VLA 直接相关但更偏向于通用机器人学习策略优化。
Mohammad Khoshnazar et al. · 利用 LLM 生成未来假设以指导多步操作中的探索,解决不确定性下的规划难题。结合 LLM 与机器人探索,属 VLA 相邻方向,侧重高层规划而非底层动作生成。
Hao Ren et al. · 提出无需训练的 Fisher 保持引导方法,约束扩散模型采样流形以提升导航安全性。主要贡献在扩散控制理论,虽可用于机器人,但非专为 VLA 设计。
Shutong Ding et al. · 结合 Critic 引导提升基于扩散策略的 RL 样本效率。属于通用 RL 算法改进,虽可应用于机器人,但缺乏针对 VLA 特性的专门优化或实验验证。
Kuangji Zuo et al. · 引入视线条件化以增强 VLA 在交互式操作中对人类意图的理解。虽增加了交互维度,但核心仍为 VLA 的条件输入扩展,创新幅度适中,适合关注人机协作的研究者。
Chunru Lin et al. · 提出 RoboWits 基准,评估机器人在意外挑战下的创造性问题解决能力。属于新型评估基准,旨在推动从技能执行向认知推理的转变,不直接提供新算法。
Jusuk Lee et al. · 提出三模态动力学引导表示以改进机器人感知,保留动作相关信息。侧重感知层改进,虽服务于操作,但未直接涉及 VLA 的动作生成架构或训练范式。
Taeyoung Kim et al. · 引入对比表示正则化以优化 VLA 的特征敏感性。属于训练技巧层面的改进,虽有助于提升性能,但缺乏架构级创新,边际贡献有限。
Wenhao Li et al. · 构建具有元认知能力的 Sentinel-VLA,通过主动状态监控实现动态推理和错误恢复。概念新颖,但摘要未明确量化增益,暂归为值得了解的架构探索。
Wenhao Li et al. · 提出自适应测试时计算机制,结合相对动作 Critic 优化 VLA 决策。类似 ElegantVLA 的效率优化方向,但侧重测试时调整,需进一步验证其实际加速效果。
Daojie Peng et al. · 指出并修正机器人基础模型中的动作不等性问题,优化注意力机制。针对训练偏差的技术修补,虽有益但属于局部改进,非范式级突破。
Yuheng Lei et al. · 提出动态混合渐进式参数高效专家库,支持终身机器人学习。侧重持续学习与防遗忘,虽适用于 VLA,但核心贡献在于 PEFT 策略的动态管理。
John Won et al. · 提出双流扩散架构以融合世界模型与 VLA,解决模态间隙问题。虽结合了世界模型这一热点,但具体实现细节在摘要中未充分展开,需正文验证其有效性。
Sungyoung Lee et al. · 提出 FAN 算法,通过流锚定噪声条件 Q 学习提升离线 RL 效率。属于通用 RL 算法创新,虽可间接服务于 VLA 训练,但非直接针对 VLA 架构。
Tianzhuo Yang et al. · 发布 MiraBench 基准,评估机器人世界模型在动作条件下的可靠性预测能力。作为评估工具,有助于诊断世界模型质量,但不提供新的建模方法。
Haoyuan Shi et al. · 提出 VLA-Trace 诊断框架,通过表征和行为追踪分析 VLA 内部机制。属于可解释性工具,有助于理解 VLA 决策过程,但对提升模型性能无直接帮助。