VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-05

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Being-H0.7: A Latent World-Action Model from Egocentric Videos Hao Luo et al. · 提出基于第一人称视频的潜在世界-动作模型，旨在解决稀疏动作监督导致的捷径学习问题。通过引入世界模型约束增强VLA的表征能力，为提升泛化性提供新视角。 CS.RO
World Model for Robot Learning: A Comprehensive Survey Bohan Hou et al. · 全面综述世界模型在机器人学习中的应用，涵盖策略学习、规划及数据生成等方向。作为领域背景知识补充，适合快速了解现状但无即时工程复用价值。 CS.RO
E$^2$DT: Efficient and Effective Decision Transformer with Experience-Aware Sampling for Robotic Manipulation Kaiyan Zhao et al. · 针对决策Transformer提出经验感知采样方法以改善长程任务性能。虽涉及操作控制，但属于对现有BC/DT框架的工程优化，缺乏架构级创新或显著SOTA突破。 CS.RO
Lucid-XR: An Extended-Reality Data Engine for Robotic Manipulation Yajvan Ravan et al. · 推出基于XR头显的生成式数据引擎Lucid-XR，利用vuer仿真环境实时生成多模态训练数据。为VLA研究者提供低成本、高多样性的数据采集与合成方案，本周即可尝试部署。 CS.RO
Embodied Interpretability: Linking Causal Understanding to Generalization in Vision-Language-Action Models Hanxin Zhang et al. · 将视觉-动作归因建模为干预估计过程，揭示VLA分布偏移下的虚假相关性根源。提供可解释性分析工具，帮助调试VLA失败案例并指导因果特征对齐，具有明确诊断价值。 CS.RO
MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation [NVIDIA] Ali Al-Bustami et al. · 发布面向语言条件物体接近导航的仿真数据集MiniVLA-Nav v1，支持NVIDIA Nova Carter机器人。虽填补移动操作数据空白，但仅限仿真验证，暂缺真实世界迁移证据。 CS.RO
Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies Yi Wang et al. · 探索通用机器人策略的大规模在线强化学习部署框架，解决离线预训练后的分布漂移与长尾失效问题。提供 fleet-scale RL 的工程洞见，对生产环境VLA迭代具直接参考意义。 CS.RO
Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances Xianbo Cai et al. · 提出立体多级空间注意力机制以应对移动操作中的尺度变化与干扰。侧重传统视觉感知模块优化，未深度融合VLA架构，且缺乏大规模基准对比，属相邻领域改进。 CS.RO
MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation Xianbo Cai et al. · 针对双臂精细操作提出多级空间对齐方法以降低延迟并稳定定位。主要贡献在于控制层面的几何对齐，非VLA核心范式创新，且依赖特定硬件配置，通用性受限。 CS.RO
Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation Jinkun Liu et al. · 引入交错的视觉-语言推理轨迹（Reasoning Traces）以增强长程操作的逻辑连贯性与几何 grounding。为VLA提供显式规划中间层，代码/方法易于集成至现有Transformer架构中。 CS.RO
VLAs are Confined yet Capable of Generalizing to Novel Instructions Quanyi Li · 深入分析VLA在组合泛化上的局限性，指出其虽能处理新指令但难以跨任务组合技能。属理论分析与错误剖析，无新算法提出，有助于理解当前SOTA瓶颈但无直接工程产出。 CS.RO
VLBiMan: Vision-Language Anchored One-Shot Demonstration Enables Generalizable Bimanual Robotic Manipulation Huayi Zhou et al. · 提出基于视觉-语言锚点的双臂单样本学习方法，解决双臂协作中数据稀缺与泛化难题。通过VL引导实现高效模仿，为双臂VLA提供轻量化微调路径，具备较高复用价值。 CS.RO

2026-05-05

VLA 研究日報VLA 研究日报

9 篇 9 篇共 18 篇

🔧 技術技术

Practical VLA 2026-05-05

Being-H0.7: A Latent World-Action Model from Egocentric Videos

Hao Luo et al. · 提出基于第一人称视频的潜在世界-动作模型，旨在解决稀疏动作监督导致的捷径学习问题。通过引入世界模型约束增强VLA的表征能力，为提升泛化性提供新视角。

cs.RO 閱讀原文

Practical VLA 2026-05-05

Lucid-XR: An Extended-Reality Data Engine for Robotic Manipulation

Yajvan Ravan et al. · 推出基于XR头显的生成式数据引擎Lucid-XR，利用vuer仿真环境实时生成多模态训练数据。为VLA研究者提供低成本、高多样性的数据采集与合成方案，本周即可尝试部署。

cs.RO 閱讀原文

Practical VLA 2026-05-05

Embodied Interpretability: Linking Causal Understanding to Generalization in Vision-Language-Action Models

Hanxin Zhang et al. · 将视觉-动作归因建模为干预估计过程，揭示VLA分布偏移下的虚假相关性根源。提供可解释性分析工具，帮助调试VLA失败案例并指导因果特征对齐，具有明确诊断价值。

cs.RO 閱讀原文

Practical VLA 2026-05-05

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Yi Wang et al. · 探索通用机器人策略的大规模在线强化学习部署框架，解决离线预训练后的分布漂移与长尾失效问题。提供 fleet-scale RL 的工程洞见，对生产环境VLA迭代具直接参考意义。

cs.RO 閱讀原文

Practical VLA 2026-05-05

Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

Jinkun Liu et al. · 引入交错的视觉-语言推理轨迹（Reasoning Traces）以增强长程操作的逻辑连贯性与几何 grounding。为VLA提供显式规划中间层，代码/方法易于集成至现有Transformer架构中。

cs.RO 閱讀原文

Practical VLA 2026-05-05

VLBiMan: Vision-Language Anchored One-Shot Demonstration Enables Generalizable Bimanual Robotic Manipulation

Huayi Zhou et al. · 提出基于视觉-语言锚点的双臂单样本学习方法，解决双臂协作中数据稀缺与泛化难题。通过VL引导实现高效模仿，为双臂VLA提供轻量化微调路径，具备较高复用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-05

STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation

Yuxuan Tian et al. · 构建时空动作中心的世界模型STARRY，强化预测表征与动作执行的耦合。通过解耦几何约束与动态预测，提升VLA在复杂交互场景下的鲁棒性，是对World-VLA范式的有力补充。

cs.RO 閱讀原文

Practical VLA 2026-05-05

MotuBrain: An Advanced World Action Model for Robot Control

MotuBrain Team et al. · 提出统一世界动作模型MotuBrain，采用UniDiffuser联合建模视频与动作。旨在弥补VLA在细粒度动力学建模上的不足，为结合生成式世界模型与控制提供新架构参考。

cs.RO 閱讀原文

Practical VLA 2026-05-05

RL Token: Bootstrapping Online RL with Vision-Language-Action Models

Charles Xu et al. · 引入RL Token机制，利用VLA先验知识引导在线强化学习微调。解决纯RL样本效率低的问题，提供从离线VLA到在线精调的标准接口，显著提升策略收敛速度与精度。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-05

World Model for Robot Learning: A Comprehensive Survey

Bohan Hou et al. · 全面综述世界模型在机器人学习中的应用，涵盖策略学习、规划及数据生成等方向。作为领域背景知识补充，适合快速了解现状但无即时工程复用价值。

cs.RO 閱讀原文

Background VLA 2026-05-05

E$^2$DT: Efficient and Effective Decision Transformer with Experience-Aware Sampling for Robotic Manipulation

Kaiyan Zhao et al. · 针对决策Transformer提出经验感知采样方法以改善长程任务性能。虽涉及操作控制，但属于对现有BC/DT框架的工程优化，缺乏架构级创新或显著SOTA突破。

cs.RO 閱讀原文

Background VLA [NVIDIA] 2026-05-05

MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation

Ali Al-Bustami et al. · 发布面向语言条件物体接近导航的仿真数据集MiniVLA-Nav v1，支持NVIDIA Nova Carter机器人。虽填补移动操作数据空白，但仅限仿真验证，暂缺真实世界迁移证据。

cs.RO 閱讀原文

Background VLA 2026-05-05

Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

Xianbo Cai et al. · 提出立体多级空间注意力机制以应对移动操作中的尺度变化与干扰。侧重传统视觉感知模块优化，未深度融合VLA架构，且缺乏大规模基准对比，属相邻领域改进。

cs.RO 閱讀原文

Background VLA 2026-05-05

MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation

Xianbo Cai et al. · 针对双臂精细操作提出多级空间对齐方法以降低延迟并稳定定位。主要贡献在于控制层面的几何对齐，非VLA核心范式创新，且依赖特定硬件配置，通用性受限。

cs.RO 閱讀原文

Background VLA 2026-05-05

VLAs are Confined yet Capable of Generalizing to Novel Instructions

Quanyi Li · 深入分析VLA在组合泛化上的局限性，指出其虽能处理新指令但难以跨任务组合技能。属理论分析与错误剖析，无新算法提出，有助于理解当前SOTA瓶颈但无直接工程产出。

cs.RO 閱讀原文

Background VLA 2026-05-05

Borrowed Geometry: Computational Reuse of Frozen Text-Pretrained Transformer Weights Across Modalities

Abay Bektursun · 探索冻结文本预训练权重跨模态复用的可行性，在OGBench上取得小幅提升。虽涉及多模态对齐，但实验规模小且提升有限，更多是启发式探索而非系统性VLA进展。

cs.LG 閱讀原文

Background VLA 2026-05-05

Continuum tactile sensing via an amplified liquid metal interface

Erlong Wang et al. · 发表关于液态金属界面放大连续触觉传感的研究，属新型传感器硬件创新。虽对触觉VLA有长期价值，但非算法或系统层面进展，需等待后续软件集成工作。

Science-Advances 閱讀原文

Background VLA 2026-05-05

Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

Sen Cui et al. · 从哈密顿力学视角重新审视生成式世界模型，强调物理一致性。属理论框架探讨，缺乏具体机器人实验验证，对当前VLA工程实践的直接指导意义有限。

cs.RO 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-05