Dexora: Open-source VLA for High-DoF Bimanual Dexterity
Zongzheng Zhang et al. · 发布 Dexora,首个开源支持高自由度双臂灵巧操作的 VLA 模型。填补了现有 VLA 在复杂双手协同与灵巧手控制领域的空白,并在多个基准上展示了显著优于单臂或夹爪控制的泛化能力。
Zongzheng Zhang et al. · 发布 Dexora,首个开源支持高自由度双臂灵巧操作的 VLA 模型。填补了现有 VLA 在复杂双手协同与灵巧手控制领域的空白,并在多个基准上展示了显著优于单臂或夹爪控制的泛化能力。
提出 Key-Gram 框架,将世界知识解耦为可扩展模块嵌入 VLA,解决动态视觉状态下的组合指令推理问题。亮点在于模块化设计提升了知识更新灵活性,适合需频繁调整任务逻辑的 VLA 部署场景。
Site Hu et al. · 提出子目标感知扩散策略 SADP,利用大模型生成演示数据并增强决策可解释性。亮点在于通过子目标分解提升长程任务成功率,为需要透明决策过程的 VLA 应用提供新路径。
Bosung Kim et al. · 系统研究语言标注密度对机器人策略学习的影响,证明密集标注能显著提升有限演示数据下的策略性能。为 VLA 数据预处理和标注策略提供实证指导,具有直接的数据工程价值。
Miranda Muqing Miao et al. · 提出 COAST 方法,通过对比概念激活引导 VLA 隐藏状态以缓解模型脆性。亮点在于无需重新训练即可通过干预中间层提升简单任务成功率,为 VLA 推理阶段的鲁棒性优化提供新思路。
Sixu Lin et al. · 提出 DyGRO-VLA,通过动态分组残差优化实现 VLA 模型的跨任务扩展。亮点在于结合 RL 与 SFT,解决传统微调中的灾难性遗忘问题,为多任务 VLA 训练提供高效优化方案。
Weijie Kong et al. · 提出 AffordVLA,通过隐式特征对齐将可供性表示注入 VLA,解决全局外观主导导致的局部关注不足。亮点在于增强模型对操作关键区域的敏感度,提升精细操作能力。
Yiyang Fu et al. · 提出 StableVLA,在不增加额外数据的情况下提升 VLA 对未见视觉扰动的鲁棒性。亮点在于通过训练策略优化增强模型稳定性,为解决 VLA 现实部署中的环境适应性问题提供实用方案。
Yuan Liu et al. · 提出通过 RL 微调实现 VLA 的持续学习,解决预训练模型在长期部署中的适应性退化问题。亮点在于平衡知识保留与新任务适应,为 VLA 在线更新提供可行技术路径。
Xiangyu Li et al. · 提出 OxyGen 统一管理 VLA 在多任务并行下的 KV Cache,优化推理效率。亮点在于解决 MoT 架构下的内存瓶颈,为大规模 VLA 部署提供关键的工程优化方案。
Michael Migacev et al. · 研究临床任务中人类规划失败的预测模型,侧重人机协作中的行为建模而非 VLA 核心架构或控制策略。虽涉及机器人交互,但缺乏对通用 VLA 策略学习的直接贡献。
Antonio Li et al. · 介绍一款低成本开源移动操作平台 Nori Bot,解决了廉价舵机烧毁和固定高度工作空间限制。属于硬件工程创新,虽对普及机器人有用,但不涉及 VLA 算法或训练范式的突破。
Wenxiao Chen et al. · 提出无需对称标注的可泛化部件姿态估计方法 GAParts,旨在提升跨类别物体交互能力。虽对操作感知重要,但主要聚焦于视觉感知模块,未直接整合进端到端 VLA 控制闭环。
Xinchen Jin et al. · 探索基于事件 grounding 的稀疏自编码器用于 VLA 策略的可解释性分析。侧重于机制可解释性工具的开发,虽有趣但尚未展示对控制性能的实质性提升或直接应用路径。
Qixuan Li et al. · 提出双四足机器人协同移动操作的层级框架 HCLM,解决浮动基座下的协调难题。专注于特定多机器人协作场景,非通用 VLA 架构,且缺乏在标准 VLA benchmark 上的验证。
Sixu Lin et al. · 提出轻量级流世界模型 RoboFlow4D,用于实时引导 3D 操作。虽涉及世界模型概念,但主要聚焦于视觉流预测模块,未明确展示其在端到端 VLA 策略中的集成效果及基准测试优势。
Jonathan Diller et al. · 提出 REBAR 伦理基准,评估自主系统的伦理合规性。属于安全与评估范畴,虽重要但不涉及 VLA 核心技术改进,仅作为辅助性评估工具参考。
Liuchuan Yu et al. · 介绍 EgoKit 套件,统一异构设备上的第一人称数据采集流程。属于数据收集基础设施,虽有助于扩大 VLA 训练数据规模,但本身不涉及算法创新或策略学习。
Nicanor Mayumu et al. · 系统性研究 VLA 因果链推理的忠实度与安全性,发现自然语言理由与控制动作存在脱节。侧重安全分析与诊断,未提出改进控制性能的新方法,属重要但非紧急的研究。
Lihan Shi et al. · 展示 Qumus 系统在量子材料实验中的应用,体现 Embodied AI 在科学发现中的潜力。属于垂直领域应用案例,缺乏通用 VLA 方法论的创新或基准测试对比。
Ali Iranmanesh et al. · 揭示家庭机器人操作中基于排版攻击的安全漏洞,指出 CLIP 等模型的嵌入空间脆弱性。侧重安全威胁分析,虽具警示意义,但未提供防御机制或控制策略改进。
Hongli Xu et al. · 提出 FUNCanon 框架,通过功能对象规范化学习姿态感知动作原语。虽旨在提升泛化性,但主要聚焦于底层技能学习而非端到端 VLA 架构,且缺乏与主流 VLA 方法的直接对比。
Wu Songwei et al. · 提出 CoLA-Flow 策略,利用连续潜在动作流匹配实现时间连贯的模仿学习。虽改进了扩散策略的时间一致性,但属于现有生成策略的微调优化,未触及 VLA 核心瓶颈。
Milan Ganai et al. · 提出自监督自举方法增强 VLA 的动作预测推理能力,摆脱刚性模板依赖。侧重推理机制优化,虽有价值但未在多个标准 VLA 基准上展示显著超越 SOTA 的性能提升。
Tianyi Xiang et al. · 提出基于物理一致的对象间推理方法,改善杂乱环境下的 Real-to-Sim 重建质量。主要贡献在感知与仿真构建,未直接整合进 VLA 控制策略或展示端到端操作性能提升。
Yufeng Liu et al. · 提出原生延续学习方法解决动作分块流策略的边界不连续问题。虽优化了执行平滑度,但属于对现有 RTC 等技术的具体改进,创新幅度有限,未改变 VLA 整体范式。
Zaijing Li et al. · 提出双记忆增强 VLA 模型,结合全局先验与局部一致性以提升操作效率。虽引入记忆机制,但摘要未明确展示其在 LIBERO 等基准上的显著优势,疑似常规模块堆叠。
Yinpei Dai et al. · 推出 RoboMME 基准,专门评估机器人通用策略的记忆能力。作为数据集/基准论文,虽重要但无新算法贡献,供后续研究参考使用。