VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-06-10

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

VoLo: A Physical Orchestrator for Open-Vocabulary Long-Horizon Manipulation Siyi Chen et al. · 提出 VoLo 框架，通过物理感知编排器解决长视界操作中的规划与恢复问题。亮点在于将 VLM 推理与底层控制解耦，提供可复用的故障恢复机制，适合处理复杂多物体场景。 CS.RO
Q-VGM: Q-Guided Value-Gradient Matching for Flow-Matching VLA Policies Ziqian Wang et al. · 提出 Q-VGM 方法，利用离线 RL 优化 Flow-Matching VLA 策略。核心贡献是解决了流匹配策略微调中的效率瓶颈，为 VLA 的 RL 精调提供了新的算法路径，具有明确的工程应用价值。 CS.RO
EgoAERO: Learning Dexterous Manipulation from a Single Egocentric Video without Object Assets Yichen Niu et al. · 仅凭单目 RGB-D 视频学习灵巧操作，无需预扫描物体资产。虽具创新性，但主要依赖仿真或特定设置验证，缺乏大规模真实机器人基准测试，暂归为值得了解。 CS.RO
vla.cpp: A Unified Inference Runtime for Vision-Language-Action Models Khanh D. Nguyen et al. · 基于 llama.cpp 构建的 VLA C++ 推理运行时，解决 PyTorch 在嵌入式设备上的部署难题。本周即可复用，显著降低 VLA 在边缘端的计算门槛，是极具实用价值的工程工具。 CS.RO
Revisiting Articulated Parts Perception in Robot Manipulation Xiaoqian Wu et al. · 重新审视机器人操作中的关节部件感知问题。属于感知层面的改进，虽对操作重要，但未直接涉及 VLA 架构或训练范式的创新，且缺乏跨平台迁移的广泛验证。 CS.RO
Ego-Pi: VLA Fine-Tuning for Ego-Centric Human and Robot Data Ji Woong Kim et al. · 针对第一人称人类和机器人数据设计 VLA 微调方法，缓解数据稀缺问题。提供明确的数据对齐策略，有助于利用互联网规模的人类视频数据增强 VLA 泛化能力，具备实操性。 CS.RO
CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning Markus Knauer et al. · 结合 VLA 与任务参数化学习实现技能选择与组合。方法相邻但侧重于传统技能库的调用逻辑，非 VLA 核心架构创新，且实验主要在仿真环境，真实性能待考。 CS.RO
SIMPLE: Simulation-Based Policy Learning and Evaluation for Humanoid Loco-manipulation Songlin Wei et al. · 为人形机器人移动操作提供仿真基准与评估框架。作为数据集/基准类工作，重要性高但不紧急，且纯仿真验证缺乏真实世界鲁棒性证明，归为值得了解。 CS.RO
MotionVLA: Injecting Geometric Motion into Vision-Language-Action Model Shanglin Yuan et al. · 在 VLA 中注入几何运动信息以消除长视界操作的歧义。通过引入时空证据提升策略准确性，是对现有 VLA 输入模态的有效补充，具有明确的性能提升潜力。 CS.RO
PACT: Self-Evolving Physical Safety Alignment for Diffusion Policies in Embodied Manipulation Lingxuan Wu et al. · 针对扩散策略的物理安全对齐方法，通过自进化机制满足严格约束。虽涉及安全关键领域，但主要聚焦于约束满足而非 VLA 核心智能提升，且实验范围有限。 CS.RO
GraspFoM: Towards Reconstruction-Driven Robotic Grasping with 3D Foundation Priors Dongli Wu et al. · 利用 3D 基础模型先验进行重建驱动的抓取。属于感知与抓取的经典结合，未体现 VLA 特有的语言-动作对齐优势，且缺乏在开放词汇场景下的广泛验证。 CS.RO
EgoPriMo: Egocentric Motion Generation for Interactive Humanoid Control Haoyang Ge et al. · 生成适应场景上下文的人形机器人全身运动。侧重于运动生成与控制，虽与 VLA 相关，但更偏向底层运动基元，未直接解决高层语义到动作的映射瓶颈。 CS.RO

2026-06-10

VLA 研究日報VLA 研究日报

14 篇 16 篇共 30 篇

🔧 技術技术

Practical VLA 2026-06-10

VoLo: A Physical Orchestrator for Open-Vocabulary Long-Horizon Manipulation

Siyi Chen et al. · 提出 VoLo 框架，通过物理感知编排器解决长视界操作中的规划与恢复问题。亮点在于将 VLM 推理与底层控制解耦，提供可复用的故障恢复机制，适合处理复杂多物体场景。

cs.RO 閱讀原文

Practical VLA 2026-06-10

Q-VGM: Q-Guided Value-Gradient Matching for Flow-Matching VLA Policies

Ziqian Wang et al. · 提出 Q-VGM 方法，利用离线 RL 优化 Flow-Matching VLA 策略。核心贡献是解决了流匹配策略微调中的效率瓶颈，为 VLA 的 RL 精调提供了新的算法路径，具有明确的工程应用价值。

cs.RO 閱讀原文

Practical VLA 2026-06-10

vla.cpp: A Unified Inference Runtime for Vision-Language-Action Models

Khanh D. Nguyen et al. · 基于 llama.cpp 构建的 VLA C++ 推理运行时，解决 PyTorch 在嵌入式设备上的部署难题。本周即可复用，显著降低 VLA 在边缘端的计算门槛，是极具实用价值的工程工具。

cs.RO 閱讀原文

Practical VLA 2026-06-10

Ego-Pi: VLA Fine-Tuning for Ego-Centric Human and Robot Data

Ji Woong Kim et al. · 针对第一人称人类和机器人数据设计 VLA 微调方法，缓解数据稀缺问题。提供明确的数据对齐策略，有助于利用互联网规模的人类视频数据增强 VLA 泛化能力，具备实操性。

cs.RO 閱讀原文

Practical VLA 2026-06-10

MotionVLA: Injecting Geometric Motion into Vision-Language-Action Model

Shanglin Yuan et al. · 在 VLA 中注入几何运动信息以消除长视界操作的歧义。通过引入时空证据提升策略准确性，是对现有 VLA 输入模态的有效补充，具有明确的性能提升潜力。

cs.RO 閱讀原文

Practical VLA 2026-06-10

Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data

Linqi Yin et al. · 提出通过具身轨迹耦合数据弥合 VLM 与 VLA 差距的方法。核心贡献在于数据构建策略，为将通用 VLM 转化为可控 VLA 提供了清晰路径，具有较高的复用价值。

cs.RO 閱讀原文

Practical VLA 2026-06-10

GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation

Yuan Zhang et al. · 学习几何感知的动作表示以提升 VLA 在未见物体和背景下的泛化性。通过统一几何特征解决部署难题，是对 VLA 表征学习的重要改进，实验覆盖多个基准。

cs.RO 閱讀原文

Practical VLA 2026-06-10

FAWAM: Force-Aware World Action Models for Closed-Loop Contact-Rich Manipulation

Haotian He et al. · 提出力觉感知世界动作模型，用于闭环接触丰富操作。填补触觉 VLA 方向空白，充分利用力信号建模交互动力学，显著提升接触任务的鲁棒性，值得重点关注。

cs.RO 閱讀原文

Practical VLA 2026-06-10

Latent Diffusion Policy: Shaping Latent Spaces for Diffusion-Based Robotic Manipulation

Zhexuan Zhou et al. · 在潜在空间塑造扩散策略，分离场景理解与轨迹生成。解决原始动作空间混淆问题，提升采样效率与策略质量，是对扩散策略架构的有效优化。

cs.RO 閱讀原文

Practical VLA 2026-06-10

Dream-Tac: A Unified Tactile World Action Model for Contact-Rich Robot Manipulation

Yunfan Lou et al. · 提出统一触觉世界动作模型 Dream-Tac，解决接触丰富操作中视觉线索不足的问题。填补触觉 VLA 空白，通过预测未来观测引导动作，显著提升接触任务性能。

cs.RO 閱讀原文

Practical VLA [NYU|LeCun] 2026-06-10

Unifying Object-Centric World Models and Diffusion Policy: A Hierarchical Framework for Multi-Stage Robotic Tasks

Raktim Gautam Goswami et al. · 统一对象中心世界模型与扩散策略，构建分层框架处理多阶段任务。结合 MPC 与扩散策略优势，提升复杂任务的规划能力，是对 VLA 控制架构的有效扩展。

cs.RO 閱讀原文

Practical VLA 2026-06-10

MotionWAM: Towards Foundation World Action Models for Real-Time Humanoid Loco-Manipulation

Jia Zheng et al. · 提出 MotionWAM，旨在实现人形机器人实时移动操作的世界动作模型。解决迭代去噪速度慢的问题，推动 WAM 向实时控制迈进，具有明确的工程突破。

cs.RO 閱讀原文

Practical VLA 2026-06-10

Back to the Familiar Future: Failure Recovery for VLA Policies via Pre-Imagined Milestone Selection

Suyeon Shin et al. · 通过预想象里程碑选择实现 VLA 策略的故障恢复。将偏离状态拉回熟悉空间，提升长视界操作的鲁棒性，是解决 VLA 实际部署痛点的有效方案。

cs.RO 閱讀原文

Practical VLA 2026-06-10

TORL-VLA: Tactile Guided Online Reinforcement Learning for Contact-Rich Manipulation

Huaihang Zheng et al. · 提出触觉引导的在线 RL 方法 TORL-VLA，用于接触丰富操作。结合触觉反馈与在线学习，克服离线 VLA 在动态接触任务中的局限，填补触觉 RL 方向空白。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-06-10

EgoAERO: Learning Dexterous Manipulation from a Single Egocentric Video without Object Assets

Yichen Niu et al. · 仅凭单目 RGB-D 视频学习灵巧操作，无需预扫描物体资产。虽具创新性，但主要依赖仿真或特定设置验证，缺乏大规模真实机器人基准测试，暂归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-06-10

Revisiting Articulated Parts Perception in Robot Manipulation

Xiaoqian Wu et al. · 重新审视机器人操作中的关节部件感知问题。属于感知层面的改进，虽对操作重要，但未直接涉及 VLA 架构或训练范式的创新，且缺乏跨平台迁移的广泛验证。

cs.RO 閱讀原文

Background VLA 2026-06-10

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

Markus Knauer et al. · 结合 VLA 与任务参数化学习实现技能选择与组合。方法相邻但侧重于传统技能库的调用逻辑，非 VLA 核心架构创新，且实验主要在仿真环境，真实性能待考。

cs.RO 閱讀原文

Background VLA 2026-06-10

SIMPLE: Simulation-Based Policy Learning and Evaluation for Humanoid Loco-manipulation

Songlin Wei et al. · 为人形机器人移动操作提供仿真基准与评估框架。作为数据集/基准类工作，重要性高但不紧急，且纯仿真验证缺乏真实世界鲁棒性证明，归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-06-10

PACT: Self-Evolving Physical Safety Alignment for Diffusion Policies in Embodied Manipulation

Lingxuan Wu et al. · 针对扩散策略的物理安全对齐方法，通过自进化机制满足严格约束。虽涉及安全关键领域，但主要聚焦于约束满足而非 VLA 核心智能提升，且实验范围有限。

cs.RO 閱讀原文

Background VLA 2026-06-10

GraspFoM: Towards Reconstruction-Driven Robotic Grasping with 3D Foundation Priors

Dongli Wu et al. · 利用 3D 基础模型先验进行重建驱动的抓取。属于感知与抓取的经典结合，未体现 VLA 特有的语言-动作对齐优势，且缺乏在开放词汇场景下的广泛验证。

cs.RO 閱讀原文

Background VLA 2026-06-10

EgoPriMo: Egocentric Motion Generation for Interactive Humanoid Control

Haoyang Ge et al. · 生成适应场景上下文的人形机器人全身运动。侧重于运动生成与控制，虽与 VLA 相关，但更偏向底层运动基元，未直接解决高层语义到动作的映射瓶颈。

cs.RO 閱讀原文

Background VLA 2026-06-10

OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

Zehao Yu et al. · 建立从仿真数据采集到人形机器人真实移动操作的流程。侧重系统工程与数据管道，虽实用但方法论创新有限，且主要成果为数据集与流程规范。

cs.RO 閱讀原文

Background VLA 2026-06-10

Real-IKEA: Physical Fidelity is the Prerequisite for Robust Manipulation

Kunqi Xu et al. · 强调物理保真度对稳健操作的重要性，并可能提供相关基准或分析。属于实证研究或基准类工作，旨在揭示仿真-现实差距，不直接提供新算法。

cs.RO 閱讀原文

Background VLA 2026-06-10

HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning

Zechu Li et al. · 提供用于代理机器人 RL 的工程框架 HARBOR。简化任务构建与奖励塑造流程，是优秀的工程工具，但非算法层面的 VLA 创新，归类为基础设施。

cs.RO 閱讀原文

Background VLA 2026-06-10

Language as a Sensor: Calibrated Spatial Belief Estimation in 3D Scenes from Natural Language

Aryan Naveen et al. · 利用自然语言描述估计 3D 场景的空间信念。属于感知与语言融合的前沿探索，但尚未形成完整的 VLA 控制闭环，更多是状态估计层面的贡献。

cs.RO 閱讀原文

Background VLA 2026-06-10

IR-SIM: A Lightweight Skill-Native Simulator for Navigation, Learning, and Benchmarking

Ruihua Han et al. · 轻量级技能原生模拟器 IR-SIM，支持导航与学习基准测试。作为仿真工具，加速原型开发，但本身不涉及 VLA 核心算法创新，归为基础设施。

cs.RO 閱讀原文

Background VLA 2026-06-10

Guided Discovery of New Behaviors using Diffusion Policies

Dian Yu et al. · 利用扩散策略引导新行为的发现，解决演示数据有限时的探索问题。侧重于行为生成的多样性，虽有用但未触及 VLA 的核心语义对齐或泛化瓶颈。

cs.RO 閱讀原文

Background VLA 2026-06-10

Video2Sim2Real: Full-Stack Autonomous Dexterous Skill Acquisition from a Single Human Video

Yunhai Han et al. · 从单个人体视频实现端到端灵巧技能获取。虽流程完整，但依赖复杂的 Sim2Real 转换，且仅在少数任务验证，泛化能力存疑，归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-06-10

Benchmarking Vision-Language-Action Models on SO-101: Failure and Recovery Analysis

Yi Yu et al. · 在低成本 SO-101 机器人上基准测试 VLA 模型，分析失败与恢复。提供宝贵的真实世界鲁棒性数据，但属于评估分析类工作，无新算法提出。

cs.RO 閱讀原文

Background VLA 2026-06-10

ReGIL: Retrieval-Guided Imitation Learning from a Single Demonstration

Yuying Zhang et al. · 基于检索引导的单演示模仿学习方法。虽具样本效率优势，但主要依赖检索机制，未深入结合 VLA 的语义理解能力，且实验规模较小。

cs.RO 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-06-10