2026-04-10

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

RichMap: A Reachability Map Balancing Precision, Efficiency, and Flexibility for Rich Robot Manipulation Tasks Yupu Lu et al. · 提出改进的网格可达性地图表示以平衡效率与灵活性，主要面向运动规划底层支持。虽涉及机械臂操作，但属于传统规划方法优化，非 VLA 架构或训练范式创新。 CS.RO
Genie Sim PanoRecon: Fast Immersive Scene Generation from Single-View Panorama Zhijun Li et al. · 利用高斯泼溅技术从全景图快速生成用于机器人仿真的 3D 场景。作为仿真数据生成工具具有潜在价值，但本身不涉及 VLA 策略学习或具身智能核心算法。 CS.RO
RoSHI: A Versatile Robot-oriented Suit for Human Data In-the-Wild [CMU] Wenjing Margaret Mao et al. · 推出便携式全身动捕套装 RoSHI，旨在野外收集长程人机交互数据以扩展机器人学习数据集。解决了现有方案在便携性与鲁棒性上的权衡，为 VLA 数据收集提供新硬件路径。 CS.RO
TAMEn: Tactile-Aware Manipulation Engine for Closed-Loop Data Collection in Contact-Rich Tasks Longyan Wu et al. · 针对手持设备难以收集双臂接触丰富任务数据的问题，提出触觉感知的闭环数据采集引擎。直接服务于触觉 VLA 训练数据瓶颈，提供了具体的数据采集新范式。 CS.RO
A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model Kaidong Zhang et al. · 提出截断式 VLA 模型 A1，通过优化骨干网与动作头降低部署成本并提升推理效率。明确针对 VLA 落地痛点，开源代码可直接复用以替代高昂的扩散策略头。 CS.RO
StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing StarVLA Community · 发布模块化 VLA 开发代码库 StarVLA，支持像积木一样组合感知、语言与动作模块。极大降低了 VLA 架构探索门槛，本周内即可用于快速验证新想法。 CS.AI
RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains [UW] Yi Ru Wang et al. · 提出结构化物理域评估框架 RoboPlayground，旨在让非专家也能构建机器人评测任务。虽是重要的评估基础设施工作，但侧重于评测流程而非 VLA 模型本身的改进。 CS.AI
SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation [Physical Intelligence] Wuyang Luan et al. · 通过渐进式自蒸馏将 Flow Matching VLA 的多步去噪压缩为单步生成，显著降低推理延迟。在保持 SOTA 性能同时解决实时性瓶颈，是对 π0 类架构的关键突破。 CS.AI
Rectified Schr\"odinger Bridge Matching for Few-Step Visual Navigation Wuyang Luan et al. · arXiv:2604.05673v1 Announce Type: cross Abstract: Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into continuous, long-horizon action trajectories. While generative policies based on diffusion models and Schr\"odinger Bridges (SB) effectively capture multimodal action distributions, they require dozens of integration steps due to high-variance stochastic transport, posing a critical barrier for real-time roboti CS.AI
RL-VLA$^3$: A Flexible and Asynchronous Reinforcement Learning Framework for VLA Training Haoran Sun et al. · 提出灵活异步的 RL 精调框架 RL-VLA³，解决现有 VLA 强化学习训练效率低的问题。提供了明确的 VLA 后训练升级路径，支持大规模环境交互以提升策略适应性。 CS.AI
BiDexGrasp: Coordinated Bimanual Dexterous Grasps across Object Geometries and Sizes Mu Lin et al. · 发布大规模双手灵巧抓取数据集及生成模型，填补了多几何形状物体抓取数据空白。虽对操作研究有价值，但主要贡献在数据与生成模型，未涉及端到端 VLA 策略。 CS.RO
Flow Motion Policy: Manipulator Motion Planning with Flow Matching Models Davood Soleymanzadeh et al. · 利用流匹配模型进行机械臂开环运动规划，试图替代传统碰撞检测器。方法相邻但仅在规划层面，未结合多模态感知与语言指令，非完整 VLA 系统。 CS.RO

2026-04-10

VLA 研究日報VLA 研究日报

14 篇 5 篇 1 篇共 20 篇

⚡ 突破

Breakthrough VLA [Physical Intelligence] 2026-04-10

SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation

Wuyang Luan et al. · 通过渐进式自蒸馏将 Flow Matching VLA 的多步去噪压缩为单步生成，显著降低推理延迟。在保持 SOTA 性能同时解决实时性瓶颈，是对 π0 类架构的关键突破。

cs.AI 閱讀原文

🔧 技術技术

Practical VLA [CMU] 2026-04-10

RoSHI: A Versatile Robot-oriented Suit for Human Data In-the-Wild

Wenjing Margaret Mao et al. · 推出便携式全身动捕套装 RoSHI，旨在野外收集长程人机交互数据以扩展机器人学习数据集。解决了现有方案在便携性与鲁棒性上的权衡，为 VLA 数据收集提供新硬件路径。

cs.RO 閱讀原文

Practical VLA 2026-04-10

TAMEn: Tactile-Aware Manipulation Engine for Closed-Loop Data Collection in Contact-Rich Tasks

Longyan Wu et al. · 针对手持设备难以收集双臂接触丰富任务数据的问题，提出触觉感知的闭环数据采集引擎。直接服务于触觉 VLA 训练数据瓶颈，提供了具体的数据采集新范式。

cs.RO 閱讀原文

Practical VLA 2026-04-10

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

Kaidong Zhang et al. · 提出截断式 VLA 模型 A1，通过优化骨干网与动作头降低部署成本并提升推理效率。明确针对 VLA 落地痛点，开源代码可直接复用以替代高昂的扩散策略头。

cs.RO 閱讀原文

Practical VLA 2026-04-10

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

StarVLA Community · 发布模块化 VLA 开发代码库 StarVLA，支持像积木一样组合感知、语言与动作模块。极大降低了 VLA 架构探索门槛，本周内即可用于快速验证新想法。

cs.AI 閱讀原文

Practical VLA 2026-04-10

RL-VLA$^3$: A Flexible and Asynchronous Reinforcement Learning Framework for VLA Training

Haoran Sun et al. · 提出灵活异步的 RL 精调框架 RL-VLA³，解决现有 VLA 强化学习训练效率低的问题。提供了明确的 VLA 后训练升级路径，支持大规模环境交互以提升策略适应性。

cs.AI 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-04-10

RichMap: A Reachability Map Balancing Precision, Efficiency, and Flexibility for Rich Robot Manipulation Tasks

Yupu Lu et al. · 提出改进的网格可达性地图表示以平衡效率与灵活性，主要面向运动规划底层支持。虽涉及机械臂操作，但属于传统规划方法优化，非 VLA 架构或训练范式创新。

cs.RO 閱讀原文

Background VLA 2026-04-10

Genie Sim PanoRecon: Fast Immersive Scene Generation from Single-View Panorama

Zhijun Li et al. · 利用高斯泼溅技术从全景图快速生成用于机器人仿真的 3D 场景。作为仿真数据生成工具具有潜在价值，但本身不涉及 VLA 策略学习或具身智能核心算法。

cs.RO 閱讀原文

Background VLA [UW] 2026-04-10

RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains

Yi Ru Wang et al. · 提出结构化物理域评估框架 RoboPlayground，旨在让非专家也能构建机器人评测任务。虽是重要的评估基础设施工作，但侧重于评测流程而非 VLA 模型本身的改进。

cs.AI 閱讀原文

Background VLA 2026-04-10

Rectified Schr\"odinger Bridge Matching for Few-Step Visual Navigation

Wuyang Luan et al. · arXiv:2604.05673v1 Announce Type: cross Abstract: Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into continuous, long-horizon action trajectories. While generative policies based on diffusion models and Schr\"odinger Bridges (SB) effectively capture multimodal action distributions, they require dozens of integration steps due to high-variance stochastic transport, posing a critical barrier for real-time roboti

cs.AI 閱讀原文

Background VLA 2026-04-10

BiDexGrasp: Coordinated Bimanual Dexterous Grasps across Object Geometries and Sizes

Mu Lin et al. · 发布大规模双手灵巧抓取数据集及生成模型，填补了多几何形状物体抓取数据空白。虽对操作研究有价值，但主要贡献在数据与生成模型，未涉及端到端 VLA 策略。

cs.RO 閱讀原文

Background VLA 2026-04-10

Flow Motion Policy: Manipulator Motion Planning with Flow Matching Models

Davood Soleymanzadeh et al. · 利用流匹配模型进行机械臂开环运动规划，试图替代传统碰撞检测器。方法相邻但仅在规划层面，未结合多模态感知与语言指令，非完整 VLA 系统。

cs.RO 閱讀原文

Background VLA 2026-04-10

Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement

Qimin Zhong et al. · 研究多 token 预测对 LLM 内部世界模型一致性的影响，侧重理论分析与语言模型特性。虽提及世界模型，但缺乏具身环境下的实验验证与机器人应用。

cs.AI 閱讀原文

Background VLA 2026-04-10

Safety, Security, and Cognitive Risks in World Models

Manoj Parmar · 综述世界模型在自主决策中的安全与认知风险，属于观点性论文。虽涵盖机器人领域，但无新技术提出或实验支撑，适合作为背景阅读而非技术跟进。

cs.AI 閱讀原文

Background VLA 2026-04-10

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Junchao Yi et al. · 提出统一的图像输入输出流匹配生成框架，挑战文本主导的多模态生成范式。方法具有通用性，但摘要未展示具体的机器人操作应用或具身实验。

cs.CV 閱讀原文

Background VLA 2026-04-10

Toward Memory-Aided World Models: Benchmarking via Spatial Consistency

Kewei Lian et al. · 提出基于空间一致性的世界模型评测基准，强调记忆机制的重要性。属于评估工具类工作，虽对世界模型研究有益，但非 VLA 架构或策略的直接改进。

cs.CV 閱讀原文

Background VLA 2026-04-10

AstraNav-World: World Model for Foresight Control and Consistency

Jintao Chen et al. · 提出端到端世界模型 AstraNav-World 用于具身导航的前瞻控制。聚焦导航任务而非通用操作，且未在主流操作 benchmark 上验证泛化能力。

cs.CV 閱讀原文

Background VLA 2026-04-10

ODE-free Neural Flow Matching for One-Step Generative Modeling

Xiao Shou · 提出无需 ODE 积分的单步神经流匹配方法，旨在加速生成模型推理。属于底层生成算法优化，虽可惠及 VLA，但论文本身未针对机器人任务进行设计或验证。

cs.LG 閱讀原文

Background VLA 2026-04-10

Discrete Flow Matching Policy Optimization

Maojiang Su et al. · 提出离散流匹配策略优化框架 DoMinO，统一了多种策略梯度方法。理论上有价值，但主要针对离散动作空间，与当前连续控制为主的 VLA 主流略有距离。

cs.LG 閱讀原文

Background VLA 2026-04-10

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Zaid Khan et al. · 从无引导探索中推断随机环境的符号世界模型，侧重符号推理与程序合成。方法新颖但主要在简化环境中验证，离真实机器人复杂操作尚有距离。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-04-10