See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs
Yueh-Hua Wu et al. · 提出视觉证据预算机制,优化 VLA 在干扰下的泛化能力。核心贡献在于动态调整视觉输入权重,提升推理效率与鲁棒性,代码开源后可直接集成至现有 VLA 推理流程。
Yueh-Hua Wu et al. · 提出视觉证据预算机制,优化 VLA 在干扰下的泛化能力。核心贡献在于动态调整视觉输入权重,提升推理效率与鲁棒性,代码开源后可直接集成至现有 VLA 推理流程。
Jaehyeon Son et al. · 利用跨形态演示视频进行单样本条件化 VLA 学习,引入可见性感知的潜在规划模块。解决了新任务数据稀缺问题,方法可直接应用于少样本场景下的策略适配。
Wenbo Zhang et al. · 提出测试时潜在提示优化(TTT)框架,通过在线微调 prompt 应对部署时的分布偏移。无需重新训练模型即可提升适应性,为 VLA 的现场部署提供了低成本的自适应方案。
Yizhi Chen et al. · 引入状态引导的空间对齐模块 GeoAlign,弥补 VLA 仅关注语义而忽略几何空间的不足。通过显式建模空间关系提升操作精度,模块即插即用,显著改善复杂场景下的抓取成功率。
Xiaofei Wang et al. · 探索部分可观测条件下对抗补丁对 VLA 的攻击效果,揭示视觉遮挡下的安全漏洞。为 VLA 的安全性评估提供新视角,防御策略可直接增强部署系统的鲁棒性。
Ziyang Chen et al. · 提出相位感知与语义经验回放机制 PHASER,缓解 VLA 持续学习中的灾难性遗忘。通过智能筛选关键经验提升样本效率,方法兼容主流 VLA 训练流程,易于集成。
Nan Sun et al. · 系统重访具身思维链(CoT)在 VLA 中的作用,揭示其有效形式与集成策略。澄清了 CoT 对泛化的实际贡献边界,为设计更高效的推理中间态提供明确指导。
Xiangdong Feng et al. · 利用去噪方差自适应调整动作分块长度,优化流匹配策略的执行连贯性。无需额外训练即可动态平衡计算成本与控制精度,显著提升推理阶段的灵活性。
Mutian Tong et al. · 提出将 3D 点云作为通用动作表示,桥接视频扩散模型与机器人控制。解决了 RGB-only 模型缺乏深度信息的问题,为多模态 VLA 提供了新的动作输出范式。
Zhengxian Huang et al. · 展示如何通过对抗补丁劫持 VLA 的思维链推理过程,暴露 CoT 的安全隐患。为理解 VLA 内部逻辑脆弱性提供实证,防御机制可直接用于增强模型安全性。
Josef Chen · 提出动作门控记忆机制 AURA,在恒定显存下管理长期依赖。解决 VLA 长序列推理中的内存瓶颈,架构轻量且即插即用,显著提升边缘设备上的部署可行性。
Han Fang et al. · 提出单向均值流策略 OMP,实现一步推理的高效控制。通过方向对齐解决流匹配模型的延迟问题,显著降低推理耗时,为实时 VLA 部署提供高性能替代方案。
Aarav Bedi (University of California et al. · 分析仿真中虚假成功标签的可观测性,揭示模仿学习中的标签噪声问题。虽无新算法,但为数据清洗和评估指标改进提供了重要实证依据,适合了解数据质量瓶颈。
Yutong Liang et al. · 解决灵巧手运动跟踪中的运动学间隙问题,提出自适应权衡控制策略。侧重于底层控制而非高层 VLA 决策,属于 VLA 下游执行层优化,对整体架构影响有限。
Jiahao Xu et al. · 提出两阶段抓取-规划框架并引入失败归因机制,解耦抓取与路径规划。虽提升了长程任务效率,但属于传统模块化方法的改进,未体现 VLA 端到端优势,复用性受限。
Jinyuan Zhang et al. · 发布开源软硬件统一平台 OpenEAI,集成低成本机械臂与 VLA 策略。主要贡献在于工程基础设施搭建,便于社区复现实验,但方法论创新较少,适合作为硬件参考。
Yanhui Lu et al. · 研究基于事件相机的触觉接触角估计,对比静态与动态表征。聚焦于底层触觉感知信号处理,虽属触觉 VLA 上游技术,但未涉及高层策略学习,应用路径较长。
Sicong Gao et al. · 介绍 NVIDIA Isaac Sim 的 GPU 加速仿真能力。作为工具类论文,提供大规模并行训练基础设施,虽重要但属已知平台更新,无新算法或理论突破。
Xuhui Lin et al. · 构建基于视域(Isovist)的城市世界模型,预测导航环境几何变化。侧重宏观导航而非精细操作,与 VLA 核心任务距离较远,仅作为环境建模参考。
Zeyi Liu et al. · 结合偏好校准的人类反馈强化学习,提升在线干预的效率。虽涉及人机协作,但核心仍为 RL 调优,未深入探讨 VLA 架构层面的融合,应用路径不够直接。
Xi Zheng et al. · 综述 Embodied AI 可靠性挑战与验证议程,涵盖测试到形式化验证。属领域路线图性质,无具体技术方案,适合把握行业趋势而非技术实现。
Inhee Lee et al. · 从单图重建仿真就绪的组合 3D 场景,解决物理一致性难题。虽服务于机器人仿真,但侧重计算机视觉重建,非 VLA 核心算法,可作为数据生成辅助工具。
Yueyang Weng et al. · 优化动作分块的时间选择策略,提升示范学习效率。属于 LfD 基础技巧改进,创新幅度较小,对 VLA 架构影响有限,仅作为工程细节参考。
Borong Zhang et al. · 发布开源 VLA 基准测试框架 VLA-Arena,量化模型极限与失败模式。虽无新算法,但提供标准化评估工具,对比较不同 VLA 架构性能具有重要参考价值。
Linfang Zheng et al. · 综述从时序视觉数据学习操作接口的方法,涵盖视频到控制的映射。属回顾性文章,梳理现有工作但无新贡献,适合快速了解领域全貌。
Lingfeng Zhang et al. · 提出统一导航与操作的 VLA 框架 OneVLA。标题宏大但摘要未详述架构创新,疑似现有模块组合,需正文验证其是否真正解决跨任务迁移瓶颈,暂归为值得了解。 [💧灌水]
Sarah Barrington et al. · 发布包含 37 小时人机对话的视频数据集 DeepSpeak-Agentic,用于 AI 代理取证识别。侧重音频/视频内容分析,非机器人物理操作,仅作为多模态数据参考。