EvoScene-VLA: Evolving Scene Beliefs Inside the Action Decoder for Chunked Robot Control
Chushan Zhang et al. · 在动作解码器中引入演化场景信念机制,解决分块控制中的遮挡与几何变化问题。为处理长序列依赖和动态环境提供了新的 VLA 内部状态管理思路。
Chushan Zhang et al. · 在动作解码器中引入演化场景信念机制,解决分块控制中的遮挡与几何变化问题。为处理长序列依赖和动态环境提供了新的 VLA 内部状态管理思路。
Weilong Guo et al. · 探索将视觉基元(Visual Primitives)直接映射到动作空间的方法,替代传统的端到端黑盒映射。提供了一种可解释性更强、可能更高效的 VLA 特征提取新路径。
Pengteng Li et al. · 提出 SOMA 框架,通过显式空间记忆模块增强 VLA 在目标移出视野后的持续操作能力。解决了现有 VLA 对视觉可见性的过度依赖,提升了长程任务的鲁棒性。
Wenxuan Guo et al. · 引入手势感知嵌入以解决文本指令的空间歧义性问题,丰富了 VLA 的多模态输入维度。为利用非语言肢体信号提升操作精度提供了可行的工程方案。
Zhen Sun et al. · 提出运行时验证机制以检测并纠正 VLA 和世界模型生成的低质量动作轨迹。为提升 VLA 部署安全性提供了实用的后处理/监控策略,具有工程落地价值。
Rui Wang · 深入分析并控制扩散策略中分块边界伪影的噪声机制,揭示了动作不连续的根源。为优化 Diffusion Policy 等生成式 VLA 模型的平滑性提供了关键理论洞见。
Zhiyuan Guan et al. · 结合状态空间模型与全历史编码改进扩散策略,增强了对长时依赖的处理能力。为提升 VLA 在部分可观测环境下的表现提供了具体的模型架构优化方案。
Hanxiang Ren et al. · 通过策略生成解耦指令与状态条件,防止网络学习捷径从而提升泛化性。针对 VLA 中常见的指令泄露问题提出了有效的架构修正,具有明确的复用价值。
Yucen Wang et al. · 在无任务特定的世界模型中对 VLA 进行 RL 精调,避免高昂的真实交互成本。为 VLA 的后训练适应阶段提供了高效且通用的强化学习框架。
Zhi Liu · 实现离散自回归与连续流匹配 VLA 范式间的跨范式后训练与推理优化。打破了不同 VLA 架构间的壁垒,为混合使用各类 SOTA 模型提供了灵活的技术路径。
Bing Hu et al. · 通过学习行为表征来缓解 VLA 在分布偏移下的性能下降,连接抽象指令与具体实例。为提升 VLA 的域外泛化能力提供了新的表征学习视角。
Jung Yi et al. · 通过检索与压缩机制优化世界模型的记忆 KV Cache,解决长期一致性问题。为构建持久化、高效率的具身世界模型提供了关键的内存管理技术方案。
提出结构化潜在点表示以优化机器人操作的视觉表征,解决隐式场缺乏结构线索的问题。属于感知层改进,非核心 VLA 架构或训练范式创新。
Anya Zorin et al. · 发布 TacO 基准测试集,专门评估触觉传感器在物体操作中的性能。填补了触觉 VLA 领域缺乏标准化 benchmark 的空白,对多模态对齐研究有重要参考价值。
Ziang Cao et al. · 生成具备物理属性的 3D 资产用于仿真,虽有助于数据合成,但主要贡献在于 3D 生成而非 VLA 模型本身。属于上游数据基础设施,非核心算法进展。
Lucas Maes et al. · 提供世界模型研究的统一平台与评估协议,旨在解决代码库碎片化问题。作为工具型论文,对社区有价值但不包含新的 VLA 方法论突破。
Hexian Ni et al. · 改进基于偏好强化学习中的查询选择与探索效率。虽然 RL 精调是 VLA 热点,但该工作未明确结合 VLA 架构或展示在具身任务上的具体应用效果。
Zhengyi Luo et al. · 专注于人形机器人的全身运动跟踪控制,侧重于底层运动策略而非高层视觉语言理解。属于传统机器人控制范畴,非 VLA 核心研究方向。
Yifan Xie et al. · 从大规模人类视频中学习操作先验以辅助机器人模仿学习。虽涉及视频数据利用,但重点在于意图解耦,未明确整合进主流 VLA 架构进行端到端验证。
Benedict Quartey et al. · 联合学习谓词与动作以实现技能的零样本组合,侧重符号 grounding 与逻辑推理。方法相邻但缺乏在标准 VLA benchmark 上的广泛对比,归为值得了解。
Andrew Choi et al. · 提出基于自监督动作排序的离线到在线 RL 方法。虽可用于 VLA 精调,但摘要未体现其在具身智能或 VLA 特定场景下的应用与优势,暂归为一般 RL 进展。
Xiao-Ming Wu et al. · 总结构建强 VLA 模型的工程配方与最佳实践。属于经验性综述或指南,虽实用但缺乏新颖的理论架构或突破性实验结果,适合快速浏览。
Ayush Agarwal et al. · 提出基于智能手机的云端遥操作平台以众包收集机器人数据。主要贡献在于数据采集基础设施,虽对 VLA 数据瓶颈有帮助,但非算法层面创新。