VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-04-18

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Model-Based Reinforcement Learning Exploits Passive Body Dynamics for High-Performance Biped Robot Locomotion Tomoya Kamimura et al. · 针对双足机器人被动动力学利用的模型强化学习研究，聚焦于行走/跑步生成。虽涉及具身智能，但属于传统腿式机器人控制范畴，非 VLA 架构或感知 - 语言 - 动作对齐核心方向。 CS.RO
World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems Runze Li et al. · 提出 WVA 新范式，将价值函数隐式规划引入 VLA，解决直接动作预测缺乏推理能力的瓶颈。标题明确指向 VLA 系统改进，若实验验证多任务泛化将显著超越当前 OpenVLA/RT-2 架构。 CS.RO
DockAnywhere: Data-Efficient Visuomotor Policy Learning for Mobile Manipulation via Novel Demonstration Generation Ziyu Shan et al. · 提出新型演示生成方法以提升移动操作数据效率，解决导航与操作两阶段范式痛点。代码开源后可直接用于移动机械臂策略训练，本周内可复现数据增强流程。 CS.RO
A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics Fawad Javed Fateh et al. · 设计分层时空动作分词器优化上下文模仿学习，通过两级矢量量化压缩动作序列。为 ACT/Diffusion Policy 提供即插即用模块，显著提升长序列任务推理速度与精度。 CS.RO
Multi-Modal Manipulation via Multi-Modal Policy Consensus Haonan Chen et al. · 提出多模态策略共识机制替代简单特征拼接，解决触觉/视觉信号主导失衡问题。针对接触丰富操作任务提供新融合架构，适合触觉 VLA 研究者本周集成测试。 CS.RO
AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation Anukriti Singh et al. · 利用功能可供性指导关键点选择以减轻计算负载，属于轻量级操作策略优化。方法创新有限，主要是现有关键点方法与 affordance 的结合，缺乏颠覆性架构突破。 CS.RO
Flow with the Force Field: Learning 3D Compliant Flow Matching Policies from Force and Demonstration-Guided Simulation Data Tianyu Li et al. · 结合力场引导与 Flow Matching 学习顺应性策略，专攻接触丰富操作难题。提供从仿真到真实的力控策略迁移路径，触觉操作团队可直接复用其力觉数据处理管线。 CS.RO
Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion Zhuo Li et al. · 提出无需微调的即插即用推理时策略引导框架，利用具身进化扩散解决部署性能下降核心痛点。若真能免除 fine-tuning 实现零样本部署，将彻底改变 VLA 落地范式。 CS.RO
cuRoboV2: Dynamics-Aware Motion Generation with Depth-Fused Distance Fields for High-DoF Robots [NVIDIA] Balakumar Sundaralingam et al. · cuRobo 升级版，引入深度融合距离场提升高自由度机器人运动生成质量。属于底层运动规划器工程迭代，虽对部署重要但非 VLA 策略学习或架构层面的核心进展。 CS.RO
Emergent Neural Automaton Policies: Learning Symbolic Structure from Visuomotor Trajectories Yiyuan Pan et al. · 尝试从视觉运动轨迹中学习符号结构以解决长程任务，结合神经符号方法。方向有价值但目前多为原理验证，缺乏在复杂 VLA 基准上的完整对比与消融实验支撑。 CS.RO
XRZero-G0: Pushing the Frontier of Dexterous Robotic Manipulation with Interfaces, Quality and Ratios James Wang et al. · 关注灵巧操作数据采集接口与质量比率优化，旨在解决数据瓶颈。主要贡献在于数据采集范式和硬件接口设计，属于基础设施构建，非算法架构层面的直接突破。 CS.RO
TwinOR: Photorealistic Digital Twins of Dynamic Operating Rooms for Embodied AI Research Han Zhang et al. · 构建手术室高保真数字孪生环境供具身 AI 研究，属于特定领域仿真数据集与环境构建。对医疗机器人有价值，但通用 VLA 研究者复用路径不明确，归为值得了解。 CS.RO

2026-04-18

VLA 研究日報VLA 研究日报

9 篇 2 篇 4 篇共 15 篇

⚡ 突破

Breakthrough VLA 2026-04-18

World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems

Runze Li et al. · 提出 WVA 新范式，将价值函数隐式规划引入 VLA，解决直接动作预测缺乏推理能力的瓶颈。标题明确指向 VLA 系统改进，若实验验证多任务泛化将显著超越当前 OpenVLA/RT-2 架构。

cs.RO 閱讀原文

Breakthrough VLA 2026-04-18

Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion

Zhuo Li et al. · 提出无需微调的即插即用推理时策略引导框架，利用具身进化扩散解决部署性能下降核心痛点。若真能免除 fine-tuning 实现零样本部署，将彻底改变 VLA 落地范式。

cs.RO 閱讀原文

🔧 技術技术

Practical VLA 2026-04-18

DockAnywhere: Data-Efficient Visuomotor Policy Learning for Mobile Manipulation via Novel Demonstration Generation

Ziyu Shan et al. · 提出新型演示生成方法以提升移动操作数据效率，解决导航与操作两阶段范式痛点。代码开源后可直接用于移动机械臂策略训练，本周内可复现数据增强流程。

cs.RO 閱讀原文

Practical VLA 2026-04-18

A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics

Fawad Javed Fateh et al. · 设计分层时空动作分词器优化上下文模仿学习，通过两级矢量量化压缩动作序列。为 ACT/Diffusion Policy 提供即插即用模块，显著提升长序列任务推理速度与精度。

cs.RO 閱讀原文

Practical VLA 2026-04-18

Multi-Modal Manipulation via Multi-Modal Policy Consensus

Haonan Chen et al. · 提出多模态策略共识机制替代简单特征拼接，解决触觉/视觉信号主导失衡问题。针对接触丰富操作任务提供新融合架构，适合触觉 VLA 研究者本周集成测试。

cs.RO 閱讀原文

Practical VLA 2026-04-18

Flow with the Force Field: Learning 3D Compliant Flow Matching Policies from Force and Demonstration-Guided Simulation Data

Tianyu Li et al. · 结合力场引导与 Flow Matching 学习顺应性策略，专攻接触丰富操作难题。提供从仿真到真实的力控策略迁移路径，触觉操作团队可直接复用其力觉数据处理管线。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-04-18

Model-Based Reinforcement Learning Exploits Passive Body Dynamics for High-Performance Biped Robot Locomotion

Tomoya Kamimura et al. · 针对双足机器人被动动力学利用的模型强化学习研究，聚焦于行走/跑步生成。虽涉及具身智能，但属于传统腿式机器人控制范畴，非 VLA 架构或感知 - 语言 - 动作对齐核心方向。

cs.RO 閱讀原文

Background VLA 2026-04-18

AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation

Anukriti Singh et al. · 利用功能可供性指导关键点选择以减轻计算负载，属于轻量级操作策略优化。方法创新有限，主要是现有关键点方法与 affordance 的结合，缺乏颠覆性架构突破。

cs.RO 閱讀原文

Background VLA [NVIDIA] 2026-04-18

cuRoboV2: Dynamics-Aware Motion Generation with Depth-Fused Distance Fields for High-DoF Robots

Balakumar Sundaralingam et al. · cuRobo 升级版，引入深度融合距离场提升高自由度机器人运动生成质量。属于底层运动规划器工程迭代，虽对部署重要但非 VLA 策略学习或架构层面的核心进展。

cs.RO 閱讀原文

Background VLA 2026-04-18

Emergent Neural Automaton Policies: Learning Symbolic Structure from Visuomotor Trajectories

Yiyuan Pan et al. · 尝试从视觉运动轨迹中学习符号结构以解决长程任务，结合神经符号方法。方向有价值但目前多为原理验证，缺乏在复杂 VLA 基准上的完整对比与消融实验支撑。

cs.RO 閱讀原文

Background VLA 2026-04-18

XRZero-G0: Pushing the Frontier of Dexterous Robotic Manipulation with Interfaces, Quality and Ratios

James Wang et al. · 关注灵巧操作数据采集接口与质量比率优化，旨在解决数据瓶颈。主要贡献在于数据采集范式和硬件接口设计，属于基础设施构建，非算法架构层面的直接突破。

cs.RO 閱讀原文

Background VLA 2026-04-18

TwinOR: Photorealistic Digital Twins of Dynamic Operating Rooms for Embodied AI Research

Han Zhang et al. · 构建手术室高保真数字孪生环境供具身 AI 研究，属于特定领域仿真数据集与环境构建。对医疗机器人有价值，但通用 VLA 研究者复用路径不明确，归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-04-18

HRDexDB: A Large-Scale Dataset of Dexterous Human and Robotic Hand Grasps

Jongbin Lim et al. · 发布大规模灵巧手抓取多模态数据集，涵盖人与多种机器人手型。数据资源丰富但属数据集论文，需配合具体算法论文才能产生直接方法论影响，暂归值得了解。

cs.RO 閱讀原文

Background VLA 2026-04-18

DEX-Mouse: A Low-cost Portable and Universal Interface with Force Feedback for Data Collection of Dexterous Robotic Hands

Joonho Koh et al. · 提出低成本力反馈接口用于灵巧手数据采集，解决遥操作设备昂贵痛点。硬件与采集方案创新，对数据收集有帮助，但非 VLA 算法架构或训练范式的直接贡献。

cs.RO 閱讀原文

Background VLA 2026-04-18

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Team HY-World et al. · 多模态世界模型框架升级，支持多种输入生成 3D 世界。虽名为世界模型，但侧重重建与生成而非用于策略学习的动态预测，离 VLA 闭环控制尚有距离。

cs.CV 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-04-18