CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models
Khoa Vo et al. · 提出结合代码规划器与语义图状态的非马尔可夫 VLA 架构,解决长程依赖问题。提供处理部分可观测性的新范式,适合需复杂推理的任务复现。
Khoa Vo et al. · 提出结合代码规划器与语义图状态的非马尔可夫 VLA 架构,解决长程依赖问题。提供处理部分可观测性的新范式,适合需复杂推理的任务复现。
Yuhao Zhang et al. · 针对 VLA 模型提出物理红队测试框架,旨在部署前检测不可逆物理风险。为安全对齐提供具体评估工具,具有明确的工程应用价值。
Chengyang Li et al. · 引入人类注视数据以增强 VLA 对操作意图的理解,缓解对大规模机器人演示数据的依赖。提供多模态对齐的新视角,易于集成到现有 VLA 流程中。
Khoa Vo et al. · 通过以对象为中心和几何 grounding 提升 VLA 在杂乱环境中的鲁棒性,解耦感知与控制纠缠。提供具体的视觉预处理或特征融合改进方案。
Haoxiang Jie et al. · 结合空间理解与在线 RL 精调的 VLA 模型,旨在解决空间感知不精确及 RL 不稳定问题。提供 VLA 后训练阶段的具体优化路径。
Yaxuan Li et al. · 提出基于离散扩散世界模型的 scalable 机器人策略评估方法 dWorldEval,解决真实环境评估瓶颈,为 VLA 评测提供高效替代方案。
Mathilde Kappel et al. · 探索关节物体操作的多样化轨迹基元,侧重仿真或特定场景下的运动规划优化,缺乏通用 VLA 架构创新及大规模基准验证。
Rickmer Krohn et al. · 聚焦接触丰富场景下的多感官自监督预训练,虽涉及触觉但主要服务于 RL 策略而非端到端 VLA 架构,属于相邻领域的重要基础工作。
Adidev Jhunjhunwala et al. · 探讨持续学习中“自我”概念的涌现及其量化方法,偏向认知科学与理论分析,缺乏直接的 VLA 架构改进或具体操作任务的性能提升证据。
Yupeng Zheng et al. · 提出小型化 VLA 模型并引入世界知识引导,但摘要未展示显著优于 SOTA 的基准结果,且“口袋大小”可能暗示性能妥协,需正文验证其实用性。 [💧灌水]
Akansha Kalra et al. · 系统研究行为克隆策略的对抗攻击脆弱性,虽与安全相关,但侧重于通用 BC 策略的安全性分析,非 VLA 特有架构或训练范式的创新。
Xun-En Wu et al. · 发表新型触觉-视觉交互传感器硬件,虽对触觉 VLA 有潜在价值,但属硬件底层创新,非算法或架构层面的 VLA 进展。
Byungseok Seo et al. · 介绍基于介电异质结的时间戳触觉传感器硬件设计,属传感层创新,未涉及 VLA 模型训练或控制策略。
Meng Chu et al. · 综述或理论框架文章,探讨代理世界建模的基础与能力,缺乏具体的 VLA 实验验证或新方法提出,适合作为背景阅读。