VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-06-05

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training 提出VISTA框架，通过视觉对齐和物理验证解决UMI数据与VLA训练的域差异。提供处理大规模真实机器人数据的工程方案，可直接用于提升现有VLA模型在跨平台数据上的泛化能力。 HF-PAPER
What Are We Actually Benchmarking in Robot Manipulation? [LIBERO Team] Tianchong Jiang et al. · 深入分析当前机器人操作基准的失效模式，指出单一分数无法代表通用操作能力。虽无新算法，但对理解LIBERO/CALVIN等benchmark局限性有重要参考价值，适合团队内部讨论。 CS.RO
HapTile: A Haptic-Informed Vision-Tactile-Language-Action Dataset for Contact-Rich Imitation Learning Amirhosein Alian et al. · 发布首个结合视觉、触觉和语言的多模态数据集HapTile，填补了接触丰富任务中触觉VLA数据的空白。为开发触觉增强型VLA模型提供了关键数据资源，本周即可用于微调实验。 CS.RO
Potential-Guided Flow Matching for Vision-Language-Action Policy Improvement Yunpeng Mei et al. · 引入势函数引导的Flow Matching方法优化VLA策略，利用潜在的成功/失败轨迹改进生成质量。提供了一种新的训练目标替代方案，有助于提升VLA在混合质量数据下的鲁棒性。 CS.RO
Generalization of World Models under Environmental Variability for Vision-based Quadrotor Navigation Luca Zanatta et al. · 研究世界模型在环境变化下的泛化能力，但聚焦于四旋翼导航而非机械臂操作。虽然涉及World Model概念，但应用场景偏离主流VLA操作范式，仅作为相关技术参考。 CS.RO
X4Val: Learning Neural Surrogates for Variance-Reduced Policy Evaluation Rachel Luo et al. · 提出使用神经代理模型进行方差缩减的策略评估，旨在降低真实机器人测试成本。属于评估方法论创新，非VLA核心架构或训练算法，对加速迭代有帮助但非直接贡献。 CS.RO
Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation Boyuan Xiao et al. · 通过焦点计划生成机制解决VLM/VLA在长序列决策中的感知瓶颈，结合VLM规划优势与VLA执行能力。提供了一种可复用的推理阶段优化策略，适用于需要复杂空间推理的操作任务。 CS.RO
3DThinkVLA: Endowing Vision-Language-Action Models with Latent 3D Priors via 3D-Thinking-Guided Co-training Jiaxin Shi et al. · 提出3D思维引导的协同训练框架，使VLA隐式具备3D空间推理能力。通过引入3D几何先验改善操作精度，为提升VLA在复杂空间任务中的表现提供了具体技术路径。 CS.RO
From Video to Control: A Survey of Learning Manipulation Interfaces from Temporal Visual Data Linfang Zheng et al. · 综述从时序视觉数据学习操作接口的方法，涵盖视频到控制的转化技术。作为领域概览有价值，但无具体新方法或代码贡献，适合快速了解背景知识。 CS.RO
Learning While Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies Yi Wang et al. · 探索部署规模强化学习以解决离线预训练后的分布偏移问题。针对真实世界长尾故障提供在线适应方案，对构建持续学习的通用机器人策略具有直接工程指导意义。 CS.RO
DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs Yixiang Zhu et al. · 提出时间反事实偏好学习以增强异步VLA对延迟的鲁棒性。解决了大模型推理延迟导致的执行不同步问题，为部署高性能VLA提供了关键的训练技巧和数据增强方法。 CS.RO
PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models Ziyang Chen et al. · 设计相位感知和语义经验回放机制，优化VLA在开放环境中的持续技能获取。改进了传统经验回放策略，有助于缓解灾难性遗忘，可直接应用于增量学习场景。 CS.RO

2026-06-05

VLA 研究日報VLA 研究日报

11 篇 13 篇共 24 篇

🔧 技術技术

Practical VLA 2026-06-05

VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training

提出VISTA框架，通过视觉对齐和物理验证解决UMI数据与VLA训练的域差异。提供处理大规模真实机器人数据的工程方案，可直接用于提升现有VLA模型在跨平台数据上的泛化能力。

hf-papers 閱讀原文

Practical VLA 2026-06-05

HapTile: A Haptic-Informed Vision-Tactile-Language-Action Dataset for Contact-Rich Imitation Learning

Amirhosein Alian et al. · 发布首个结合视觉、触觉和语言的多模态数据集HapTile，填补了接触丰富任务中触觉VLA数据的空白。为开发触觉增强型VLA模型提供了关键数据资源，本周即可用于微调实验。

cs.RO 閱讀原文

Practical VLA 2026-06-05

Potential-Guided Flow Matching for Vision-Language-Action Policy Improvement

Yunpeng Mei et al. · 引入势函数引导的Flow Matching方法优化VLA策略，利用潜在的成功/失败轨迹改进生成质量。提供了一种新的训练目标替代方案，有助于提升VLA在混合质量数据下的鲁棒性。

cs.RO 閱讀原文

Practical VLA 2026-06-05

Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation

Boyuan Xiao et al. · 通过焦点计划生成机制解决VLM/VLA在长序列决策中的感知瓶颈，结合VLM规划优势与VLA执行能力。提供了一种可复用的推理阶段优化策略，适用于需要复杂空间推理的操作任务。

cs.RO 閱讀原文

Practical VLA 2026-06-05

3DThinkVLA: Endowing Vision-Language-Action Models with Latent 3D Priors via 3D-Thinking-Guided Co-training

Jiaxin Shi et al. · 提出3D思维引导的协同训练框架，使VLA隐式具备3D空间推理能力。通过引入3D几何先验改善操作精度，为提升VLA在复杂空间任务中的表现提供了具体技术路径。

cs.RO 閱讀原文

Practical VLA 2026-06-05

Learning While Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Yi Wang et al. · 探索部署规模强化学习以解决离线预训练后的分布偏移问题。针对真实世界长尾故障提供在线适应方案，对构建持续学习的通用机器人策略具有直接工程指导意义。

cs.RO 閱讀原文

Practical VLA 2026-06-05

DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs

Yixiang Zhu et al. · 提出时间反事实偏好学习以增强异步VLA对延迟的鲁棒性。解决了大模型推理延迟导致的执行不同步问题，为部署高性能VLA提供了关键的训练技巧和数据增强方法。

cs.RO 閱讀原文

Practical VLA 2026-06-05

PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models

Ziyang Chen et al. · 设计相位感知和语义经验回放机制，优化VLA在开放环境中的持续技能获取。改进了传统经验回放策略，有助于缓解灾难性遗忘，可直接应用于增量学习场景。

cs.RO 閱讀原文

Practical VLA 2026-06-05

Revisiting Embodied Chain-of-Thought for Generalizable Robot Manipulation

Nan Sun et al. · 重新审视并优化具身链式思维（CoT）在大尺度VLA中的集成策略。澄清了CoT的有效形式，为提升VLA在复杂多步任务中的泛化能力提供了经过验证的推理框架。

cs.RO 閱讀原文

Practical VLA 2026-06-05

PointAction: 3D Points as Universal Action Representations for Robot Control

Mutian Tong et al. · 提出将3D点云作为通用动作表示，桥接视频扩散模型与机器人控制。解决了RGB视频不可直接执行的问题，为利用预训练视频模型进行零样本操作提供了新范式。

cs.CV 閱讀原文

Practical VLA 2026-06-05

Instant-Fold: In-Context Imitation Learning for Deformable Object Manipulation

Yilong Wang et al. · 针对变形物体操作提出上下文模仿学习方法Instant-Fold。解决了高维部分可观状态下的拓扑变化难题，为柔软物体操控提供了即插即用的少样本学习方案。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA [LIBERO Team] 2026-06-05

What Are We Actually Benchmarking in Robot Manipulation?

Tianchong Jiang et al. · 深入分析当前机器人操作基准的失效模式，指出单一分数无法代表通用操作能力。虽无新算法，但对理解LIBERO/CALVIN等benchmark局限性有重要参考价值，适合团队内部讨论。

cs.RO 閱讀原文

Background VLA 2026-06-05

Generalization of World Models under Environmental Variability for Vision-based Quadrotor Navigation

Luca Zanatta et al. · 研究世界模型在环境变化下的泛化能力，但聚焦于四旋翼导航而非机械臂操作。虽然涉及World Model概念，但应用场景偏离主流VLA操作范式，仅作为相关技术参考。

cs.RO 閱讀原文

Background VLA 2026-06-05

X4Val: Learning Neural Surrogates for Variance-Reduced Policy Evaluation

Rachel Luo et al. · 提出使用神经代理模型进行方差缩减的策略评估，旨在降低真实机器人测试成本。属于评估方法论创新，非VLA核心架构或训练算法，对加速迭代有帮助但非直接贡献。

cs.RO 閱讀原文

Background VLA 2026-06-05

From Video to Control: A Survey of Learning Manipulation Interfaces from Temporal Visual Data

Linfang Zheng et al. · 综述从时序视觉数据学习操作接口的方法，涵盖视频到控制的转化技术。作为领域概览有价值，但无具体新方法或代码贡献，适合快速了解背景知识。

cs.RO 閱讀原文

Background VLA 2026-06-05

Belief-Aware VLM Model for Human-like Reasoning

Anshul Nayak et al. · 提出信念感知的VLM以模拟人类推理，主要关注意图推断和动态环境适应。虽提及VLA，但核心贡献在于认知建模而非控制策略，应用路径尚不明确。

cs.AI 閱讀原文

Background VLA 2026-06-05

FactoryNet: A Large-Scale Dataset toward Industrial Time-Series Foundation Models

Karim Othman et al. · 发布工业时间序列基础模型数据集FactoryNet，涵盖多种实体。虽规模大，但侧重工业时序数据而非视觉-语言-动作对齐，对纯VLA研究相关性较低。

cs.AI 閱讀原文

Background VLA 2026-06-05

Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

Rui Zhao et al. · 探讨视频生成模型能否产生可执行的机器人操作，初步验证物理一致性。目前主要停留在仿真/视频层面，缺乏真实机器人闭环控制证据，属于前沿探索。

cs.CV 閱讀原文

Background VLA 2026-06-05

CLAW: Learning Continuous Latent Action World Models via Adversarial Latent Regularization

Tewodros Ayalew et al. · 提出端到端自监督框架从无动作视频中学习连续潜动作世界模型。虽涉及World Model，但缺乏明确的操作策略映射和真实机器人验证，更多是表征学习方法。

cs.RO 閱讀原文

Background VLA 2026-06-05

TransTac: Visuo-Tactile Modality Transition via Ultraviolet-Encoded Transparent Elastomers

Lingyue Yang et al. · 介绍一种新型透明弹性体触觉传感器TransTac，实现视觉-触觉模态转换。属于硬件传感创新，虽对触觉VLA重要，但本文侧重传感器本身而非算法/模型集成。

cs.RO 閱讀原文

Background VLA 2026-06-05

ContactExplorer: Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Zixuan Liu et al. · 提出接触覆盖引导的探索策略以增强灵巧操作RL。虽涉及灵巧手操作，但基于纯RL而非VLA架构，且主要在仿真中验证，与当前VLA主流范式有一定距离。

cs.RO 閱讀原文

Background VLA 2026-06-05

MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

Zhichao Yang et al. · 研究移动代理在屏幕截图上的隐含推理和世界模型，侧重GUI自动化。属于Embodied AI但偏向软件代理（Software Agent），非物理机器人操作，相关性较弱。

cs.AI 閱讀原文

Background VLA 2026-06-05

Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics

Yifu Qiu et al. · 探究VLM能否通过逆动力学预测未来状态，发现其物理一致性不足。提供了关于VLM作为世界模型局限性的实证分析，对理解VLA边界有价值，但无新算法。

cs.AI 閱讀原文

Background VLA 2026-06-05

Beyond Pixel Histories: World Models with Persistent 3D State

Samuel Garcin et al. · 提出具有持久3D状态的交互式世界模型，解决2D视频生成的不一致性问题。虽涉及3D表示，但主要面向开放-ended生成，未明确链接到机器人控制策略。

cs.AI 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-06-05