VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-30

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

GEM: Generative Supervision Helps Embodied Intelligence 提出利用生成式监督信号增强 VLA 的具身智能，旨在弥合高层语义与底层动作间的差距。若方法可复现且能提升泛化性，对优化 VLA 训练范式具有直接参考价值。 HF-PAPER
Phase-Conditioned Imitation Learning with Autonomous Failure Recovery for Robust Deformable Object Manipulation Dayuan Chen et al. · 针对柔性物体操作提出相位条件化 IL 框架及自主故障恢复机制，解决 ACT 等方法的马尔可夫假设局限。虽涉及 VLA 基线，但聚焦特定物理属性（柔性），通用性受限。 CS.RO
3DVLA: Enhancing Vision-Language-Action Models via 3D Spatial and Instance Understanding Zhongyu Xia et al. · 通过引入 3D 空间和实例理解模块增强 VLA，解决现有模型在 3D 场景感知上的缺陷。提供具体的 3D 特征融合方案，有助于提升 VLA 在复杂空间任务中的表现。 CS.RO
ElegantVLA: Learning When to Think for Efficient Vision-Language-Action Models Ye Li et al. · 提出动态推理机制以平衡 VLA 的计算成本与控制频率，实现高效实时操作。该方法为部署资源受限的 VLA 提供了可行的工程优化路径，具备较高的复用价值。 CS.RO
VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models Shengyu Si et al. · 引入跨任务程序记忆转移机制，提升 VLA 在未见过任务中的泛化能力。通过显式建模过程知识，为解决 VLA 长程依赖和零样本迁移问题提供了新思路。 CS.RO
VE2VF: Vision-Enabled to Vision-Free Distillation via Real-world Reinforcement Learning for Robust Contact-Rich Manipulation Victor Kowalski et al. · 通过真实世界 RL 将视觉启用策略蒸馏为无视觉策略，以增强接触丰富操作的鲁棒性。虽涉及 VLA 相关技术，但核心贡献在于 RL 蒸馏流程，非典型 VLA 架构改进。 CS.RO
VLAConf: Calibrated Task-Success Confidence for Vision-Language-Action Models Dehao Huang et al. · 提出校准 VLA 任务成功置信度的方法，支持风险敏感决策。属于 VLA 系统的可靠性增强模块，虽有用但非核心控制架构创新，适合作为辅助工具了解。 CS.RO
PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology Sergey Arkhangelskiy · 发布真实机器人 VLA 基准 PhAIL 及分布评估方法论，强调统计显著性而非单一成功率。作为数据集/基准论文，对规范领域评估标准重要，但不提供新算法。 CS.RO
MARS Policy: Multimodality Only When It Matters Jindou Jia et al. · 提出仅在必要时使用多模态信息的模仿学习策略，旨在提高策略效率。方法侧重于模态选择机制，与 VLA 直接相关但更偏向于通用机器人学习策略优化。 CS.RO
LLM-Guided Future Hypotheses for Horizon-Aware Exploration in Multi-Step Robot Manipulation Mohammad Khoshnazar et al. · 利用 LLM 生成未来假设以指导多步操作中的探索，解决不确定性下的规划难题。结合 LLM 与机器人探索，属 VLA 相邻方向，侧重高层规划而非底层动作生成。 CS.RO
Fisher-Preserving Guidance: Training-Free Manifold Constraints for Safe Diffusion Control Hao Ren et al. · 提出无需训练的 Fisher 保持引导方法，约束扩散模型采样流形以提升导航安全性。主要贡献在扩散控制理论，虽可用于机器人，但非专为 VLA 设计。 CS.RO
Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance Shutong Ding et al. · 结合 Critic 引导提升基于扩散策略的 RL 样本效率。属于通用 RL 算法改进，虽可应用于机器人，但缺乏针对 VLA 特性的专门优化或实验验证。 CS.RO

2026-05-30

VLA 研究日報VLA 研究日报

8 篇 20 篇 1 篇共 29 篇

⚡ 突破

Breakthrough VLA [清华] 2026-05-30

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Qiuyue Wang et al. · 推出 Qwen-VLA，统一多任务、多环境及多形态机器人的 VLA 建模，展示显著的跨平台泛化能力。作为阿里通义实验室的大规模 VLA 工作，其在多个基准上的 SOTA 表现确立了新的行业标杆。

cs.RO 閱讀原文

🔧 技術技术

Practical VLA 2026-05-30

GEM: Generative Supervision Helps Embodied Intelligence

提出利用生成式监督信号增强 VLA 的具身智能，旨在弥合高层语义与底层动作间的差距。若方法可复现且能提升泛化性，对优化 VLA 训练范式具有直接参考价值。

hf-papers 閱讀原文

Practical VLA 2026-05-30

3DVLA: Enhancing Vision-Language-Action Models via 3D Spatial and Instance Understanding

Zhongyu Xia et al. · 通过引入 3D 空间和实例理解模块增强 VLA，解决现有模型在 3D 场景感知上的缺陷。提供具体的 3D 特征融合方案，有助于提升 VLA 在复杂空间任务中的表现。

cs.RO 閱讀原文

Practical VLA 2026-05-30

ElegantVLA: Learning When to Think for Efficient Vision-Language-Action Models

Ye Li et al. · 提出动态推理机制以平衡 VLA 的计算成本与控制频率，实现高效实时操作。该方法为部署资源受限的 VLA 提供了可行的工程优化路径，具备较高的复用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-30

VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models

Shengyu Si et al. · 引入跨任务程序记忆转移机制，提升 VLA 在未见过任务中的泛化能力。通过显式建模过程知识，为解决 VLA 长程依赖和零样本迁移问题提供了新思路。

cs.RO 閱讀原文

Practical VLA 2026-05-30

BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

Zhongxi Chen et al. · 提出 BORA 框架，结合离线 RL 与在线残差适应，解决灵巧手 VLA 的高维控制难题。填补了 VLA 在灵巧操作领域的空白，方法具有明确的实机应用路径。

cs.RO 閱讀原文

Practical VLA 2026-05-30

Phantom: Training Robots Without Robots Using Only Human Videos

Marion Lepert et al. · 提出仅利用人类视频训练机器人操作策略的框架，解决数据稀缺问题。通过模拟人-机器人映射，为 VLA 预训练提供了可扩展的数据来源，具有极高的实用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-30

GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation

Zijian Zhang et al. · 提出前馈 3D 高斯世界模型以增强 VLA 的空间预测能力。结合 3DGS 与世界模型，为 VLA 提供了更丰富的几何先验，有助于提升复杂场景下的操作精度。

cs.RO 閱讀原文

Practical VLA 2026-05-30

HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos

Zhi Wang et al. · 实现仅需几分钟人类第一人称视频即可零样本学习机器人操作，大幅降低数据门槛。解决了 embodiment gap 的关键痛点，为 VLA 数据扩展提供了极具潜力的新范式。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-30

Phase-Conditioned Imitation Learning with Autonomous Failure Recovery for Robust Deformable Object Manipulation

Dayuan Chen et al. · 针对柔性物体操作提出相位条件化 IL 框架及自主故障恢复机制，解决 ACT 等方法的马尔可夫假设局限。虽涉及 VLA 基线，但聚焦特定物理属性（柔性），通用性受限。

cs.RO 閱讀原文

Background VLA 2026-05-30

VE2VF: Vision-Enabled to Vision-Free Distillation via Real-world Reinforcement Learning for Robust Contact-Rich Manipulation

Victor Kowalski et al. · 通过真实世界 RL 将视觉启用策略蒸馏为无视觉策略，以增强接触丰富操作的鲁棒性。虽涉及 VLA 相关技术，但核心贡献在于 RL 蒸馏流程，非典型 VLA 架构改进。

cs.RO 閱讀原文

Background VLA 2026-05-30

VLAConf: Calibrated Task-Success Confidence for Vision-Language-Action Models

Dehao Huang et al. · 提出校准 VLA 任务成功置信度的方法，支持风险敏感决策。属于 VLA 系统的可靠性增强模块，虽有用但非核心控制架构创新，适合作为辅助工具了解。

cs.RO 閱讀原文

Background VLA 2026-05-30

PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology

Sergey Arkhangelskiy · 发布真实机器人 VLA 基准 PhAIL 及分布评估方法论，强调统计显著性而非单一成功率。作为数据集/基准论文，对规范领域评估标准重要，但不提供新算法。

cs.RO 閱讀原文

Background VLA 2026-05-30

MARS Policy: Multimodality Only When It Matters

Jindou Jia et al. · 提出仅在必要时使用多模态信息的模仿学习策略，旨在提高策略效率。方法侧重于模态选择机制，与 VLA 直接相关但更偏向于通用机器人学习策略优化。

cs.RO 閱讀原文

Background VLA 2026-05-30

LLM-Guided Future Hypotheses for Horizon-Aware Exploration in Multi-Step Robot Manipulation

Mohammad Khoshnazar et al. · 利用 LLM 生成未来假设以指导多步操作中的探索，解决不确定性下的规划难题。结合 LLM 与机器人探索，属 VLA 相邻方向，侧重高层规划而非底层动作生成。

cs.RO 閱讀原文

Background VLA 2026-05-30

Fisher-Preserving Guidance: Training-Free Manifold Constraints for Safe Diffusion Control

Hao Ren et al. · 提出无需训练的 Fisher 保持引导方法，约束扩散模型采样流形以提升导航安全性。主要贡献在扩散控制理论，虽可用于机器人，但非专为 VLA 设计。

cs.RO 閱讀原文

Background VLA 2026-05-30

Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance

Shutong Ding et al. · 结合 Critic 引导提升基于扩散策略的 RL 样本效率。属于通用 RL 算法改进，虽可应用于机器人，但缺乏针对 VLA 特性的专门优化或实验验证。

cs.RO 閱讀原文

Background VLA 2026-05-30

Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation

Kuangji Zuo et al. · 引入视线条件化以增强 VLA 在交互式操作中对人类意图的理解。虽增加了交互维度，但核心仍为 VLA 的条件输入扩展，创新幅度适中，适合关注人机协作的研究者。

cs.RO 閱讀原文

Background VLA 2026-05-30

RoboWits: Unexpected Challenges for Robotic Creative Problem Solving

Chunru Lin et al. · 提出 RoboWits 基准，评估机器人在意外挑战下的创造性问题解决能力。属于新型评估基准，旨在推动从技能执行向认知推理的转变，不直接提供新算法。

cs.RO 閱讀原文

Background VLA 2026-05-30

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

Jusuk Lee et al. · 提出三模态动力学引导表示以改进机器人感知，保留动作相关信息。侧重感知层改进，虽服务于操作，但未直接涉及 VLA 的动作生成架构或训练范式。

cs.RO 閱讀原文

Background VLA 2026-05-30

Contrastive Representation Regularization for Vision-Language-Action Models

Taeyoung Kim et al. · 引入对比表示正则化以优化 VLA 的特征敏感性。属于训练技巧层面的改进，虽有助于提升性能，但缺乏架构级创新，边际贡献有限。

cs.RO 閱讀原文

Background VLA 2026-05-30

Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery

Wenhao Li et al. · 构建具有元认知能力的 Sentinel-VLA，通过主动状态监控实现动态推理和错误恢复。概念新颖，但摘要未明确量化增益，暂归为值得了解的架构探索。

cs.RO 閱讀原文

Background VLA 2026-05-30

VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model

Wenhao Li et al. · 提出自适应测试时计算机制，结合相对动作 Critic 优化 VLA 决策。类似 ElegantVLA 的效率优化方向，但侧重测试时调整，需进一步验证其实际加速效果。

cs.RO 閱讀原文

Background VLA 2026-05-30

AttenA+: Rectifying Action Inequality in Robotic Foundation Models

Daojie Peng et al. · 指出并修正机器人基础模型中的动作不等性问题，优化注意力机制。针对训练偏差的技术修补，虽有益但属于局部改进，非范式级突破。

cs.RO 閱讀原文

Background VLA 2026-05-30

Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning

Yuheng Lei et al. · 提出动态混合渐进式参数高效专家库，支持终身机器人学习。侧重持续学习与防遗忘，虽适用于 VLA，但核心贡献在于 PEFT 策略的动态管理。

cs.RO 閱讀原文

Background VLA 2026-05-30

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

John Won et al. · 提出双流扩散架构以融合世界模型与 VLA，解决模态间隙问题。虽结合了世界模型这一热点，但具体实现细节在摘要中未充分展开，需正文验证其有效性。

cs.RO 閱讀原文

Background VLA 2026-05-30

Towards Efficient and Expressive Offline RL via Flow-Anchored Noise-conditioned Q-Learning

Sungyoung Lee et al. · 提出 FAN 算法，通过流锚定噪声条件 Q 学习提升离线 RL 效率。属于通用 RL 算法创新，虽可间接服务于 VLA 训练，但非直接针对 VLA 架构。

cs.RO 閱讀原文

Background VLA 2026-05-30

MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models

Tianzhuo Yang et al. · 发布 MiraBench 基准，评估机器人世界模型在动作条件下的可靠性预测能力。作为评估工具，有助于诊断世界模型质量，但不提供新的建模方法。

cs.AI 閱讀原文

Background VLA 2026-05-30

VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing

Haoyuan Shi et al. · 提出 VLA-Trace 诊断框架，通过表征和行为追踪分析 VLA 内部机制。属于可解释性工具，有助于理解 VLA 决策过程，但对提升模型性能无直接帮助。

cs.AI 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-30