VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training
提出VISTA框架,通过视觉对齐和物理验证解决UMI数据与VLA训练的域差异。提供处理大规模真实机器人数据的工程方案,可直接用于提升现有VLA模型在跨平台数据上的泛化能力。
提出VISTA框架,通过视觉对齐和物理验证解决UMI数据与VLA训练的域差异。提供处理大规模真实机器人数据的工程方案,可直接用于提升现有VLA模型在跨平台数据上的泛化能力。
Amirhosein Alian et al. · 发布首个结合视觉、触觉和语言的多模态数据集HapTile,填补了接触丰富任务中触觉VLA数据的空白。为开发触觉增强型VLA模型提供了关键数据资源,本周即可用于微调实验。
Yunpeng Mei et al. · 引入势函数引导的Flow Matching方法优化VLA策略,利用潜在的成功/失败轨迹改进生成质量。提供了一种新的训练目标替代方案,有助于提升VLA在混合质量数据下的鲁棒性。
Boyuan Xiao et al. · 通过焦点计划生成机制解决VLM/VLA在长序列决策中的感知瓶颈,结合VLM规划优势与VLA执行能力。提供了一种可复用的推理阶段优化策略,适用于需要复杂空间推理的操作任务。
Jiaxin Shi et al. · 提出3D思维引导的协同训练框架,使VLA隐式具备3D空间推理能力。通过引入3D几何先验改善操作精度,为提升VLA在复杂空间任务中的表现提供了具体技术路径。
Yi Wang et al. · 探索部署规模强化学习以解决离线预训练后的分布偏移问题。针对真实世界长尾故障提供在线适应方案,对构建持续学习的通用机器人策略具有直接工程指导意义。
Yixiang Zhu et al. · 提出时间反事实偏好学习以增强异步VLA对延迟的鲁棒性。解决了大模型推理延迟导致的执行不同步问题,为部署高性能VLA提供了关键的训练技巧和数据增强方法。
Ziyang Chen et al. · 设计相位感知和语义经验回放机制,优化VLA在开放环境中的持续技能获取。改进了传统经验回放策略,有助于缓解灾难性遗忘,可直接应用于增量学习场景。
Nan Sun et al. · 重新审视并优化具身链式思维(CoT)在大尺度VLA中的集成策略。澄清了CoT的有效形式,为提升VLA在复杂多步任务中的泛化能力提供了经过验证的推理框架。
Mutian Tong et al. · 提出将3D点云作为通用动作表示,桥接视频扩散模型与机器人控制。解决了RGB视频不可直接执行的问题,为利用预训练视频模型进行零样本操作提供了新范式。
Yilong Wang et al. · 针对变形物体操作提出上下文模仿学习方法Instant-Fold。解决了高维部分可观状态下的拓扑变化难题,为柔软物体操控提供了即插即用的少样本学习方案。
Tianchong Jiang et al. · 深入分析当前机器人操作基准的失效模式,指出单一分数无法代表通用操作能力。虽无新算法,但对理解LIBERO/CALVIN等benchmark局限性有重要参考价值,适合团队内部讨论。
Luca Zanatta et al. · 研究世界模型在环境变化下的泛化能力,但聚焦于四旋翼导航而非机械臂操作。虽然涉及World Model概念,但应用场景偏离主流VLA操作范式,仅作为相关技术参考。
Rachel Luo et al. · 提出使用神经代理模型进行方差缩减的策略评估,旨在降低真实机器人测试成本。属于评估方法论创新,非VLA核心架构或训练算法,对加速迭代有帮助但非直接贡献。
Linfang Zheng et al. · 综述从时序视觉数据学习操作接口的方法,涵盖视频到控制的转化技术。作为领域概览有价值,但无具体新方法或代码贡献,适合快速了解背景知识。
Anshul Nayak et al. · 提出信念感知的VLM以模拟人类推理,主要关注意图推断和动态环境适应。虽提及VLA,但核心贡献在于认知建模而非控制策略,应用路径尚不明确。
Karim Othman et al. · 发布工业时间序列基础模型数据集FactoryNet,涵盖多种实体。虽规模大,但侧重工业时序数据而非视觉-语言-动作对齐,对纯VLA研究相关性较低。
Rui Zhao et al. · 探讨视频生成模型能否产生可执行的机器人操作,初步验证物理一致性。目前主要停留在仿真/视频层面,缺乏真实机器人闭环控制证据,属于前沿探索。
Tewodros Ayalew et al. · 提出端到端自监督框架从无动作视频中学习连续潜动作世界模型。虽涉及World Model,但缺乏明确的操作策略映射和真实机器人验证,更多是表征学习方法。
Lingyue Yang et al. · 介绍一种新型透明弹性体触觉传感器TransTac,实现视觉-触觉模态转换。属于硬件传感创新,虽对触觉VLA重要,但本文侧重传感器本身而非算法/模型集成。
Zixuan Liu et al. · 提出接触覆盖引导的探索策略以增强灵巧操作RL。虽涉及灵巧手操作,但基于纯RL而非VLA架构,且主要在仿真中验证,与当前VLA主流范式有一定距离。
Zhichao Yang et al. · 研究移动代理在屏幕截图上的隐含推理和世界模型,侧重GUI自动化。属于Embodied AI但偏向软件代理(Software Agent),非物理机器人操作,相关性较弱。
Yifu Qiu et al. · 探究VLM能否通过逆动力学预测未来状态,发现其物理一致性不足。提供了关于VLM作为世界模型局限性的实证分析,对理解VLA边界有价值,但无新算法。
Samuel Garcin et al. · 提出具有持久3D状态的交互式世界模型,解决2D视频生成的不一致性问题。虽涉及3D表示,但主要面向开放-ended生成,未明确链接到机器人控制策略。