2026-04-25

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

From embodied intelligence to physical AI Nature 综述文章，探讨从具身智能到物理 AI 的范式转变。属于领域宏观视角，无具体算法或实验贡献，适合了解趋势但不具备即时工程价值。 NATURE-M
How VLAs (Really) Work In Open-World Environments 分析 VLA 在 BEHAVIOR1K 等开放世界基准上的表现。偏向于现象分析和评估报告，未提出新的架构或训练方法，属于值得关注的评估类工作。 HF-PAPER
Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics Open-H-Embodiment Consortium (Brian) et al. · 发布医疗机器人大规模数据集，填补特定领域数据空白。为 VLA 在医疗场景的微调提供关键资源，具有明确的数据复用价值。 CS.RO
CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors Dachong Li et al. · 提出通过稀疏锚点注入显式空间约束以改进生成式 VLA 动作头的方法。解决了隐式空间引导的不稳定性问题，提供了可复用的架构改进思路。 CS.RO
FingerViP: Learning Real-World Dexterous Manipulation with Fingertip Visual Perception Zhen Zhang et al. · 利用指尖视觉感知解决灵巧操作中手腕视角遮挡问题，提升真实世界灵巧操作性能。直接针对触觉/视觉融合痛点，方法具有明确的工程应用路径。 CS.RO
A Replicable Robotics Awareness Method Using LLM-Enabled Robotics Interaction: Evidence from a Corporate Challenge S. A. Prieto et al. · 基于企业挑战赛案例，研究 LLM 在人机交互中的结构化作用。侧重社会技术系统评估，缺乏底层 VLA 算法创新，属于相邻领域的实证研究。 CS.RO
From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges Yiming Zhong et al. · 提出残差桥接机制，将高层语义意图与低层物理控制对齐，缓解生成式 VLA 的时空尺度失配问题。提供了改进策略稳定性的具体模块，具备复用价值。 CS.RO
VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis Songen Gu et al. · 通过时空感知视图合成增强机器人对相机视角变化的鲁棒性。解决了固定视角训练导致的泛化瓶颈，方法可直接集成到现有 VLA 流水线中。 CS.RO
Long-Horizon Manipulation via Trace-Conditioned VLA Planning Isabella Liu et al. · 提出 LoHo-Manip 框架，利用轨迹条件化扩展短视界 VLA 以处理长视界任务。模块化设计易于集成，有效缓解误差累积问题，具有实操价值。 CS.RO
Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own Weirui Ye et al. · 旧文重发（v5），探讨利用基础模型先验加速 RL。虽相关但非最新突破，且重点在于 RL 效率而非 VLA 架构本身，归为值得了解。 CS.RO
Demystifying Action Space Design for Robotic Manipulation Policies Yuchun Feng et al. · 深入分析动作空间设计对模仿学习的影响。属于重要的理论分析与消融研究，有助于理解现有 VLA 设计选择，但非新方法论提出。 CS.RO
Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation Zijian Song et al. · 引入 PhysGen，利用预训练视频生成模型学习物理规律以辅助策略学习。提供了一种利用通用视频模型增强机器人物理常识的新范式，具有创新性。 CS.RO

2026-04-25

VLA 研究日報VLA 研究日报

16 篇 12 篇共 28 篇

🔧 技術技术

Practical VLA 2026-04-25

Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics

Open-H-Embodiment Consortium (Brian) et al. · 发布医疗机器人大规模数据集，填补特定领域数据空白。为 VLA 在医疗场景的微调提供关键资源，具有明确的数据复用价值。

cs.RO 閱讀原文

Practical VLA 2026-04-25

CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors

Dachong Li et al. · 提出通过稀疏锚点注入显式空间约束以改进生成式 VLA 动作头的方法。解决了隐式空间引导的不稳定性问题，提供了可复用的架构改进思路。

cs.RO 閱讀原文

Practical VLA 2026-04-25

FingerViP: Learning Real-World Dexterous Manipulation with Fingertip Visual Perception

Zhen Zhang et al. · 利用指尖视觉感知解决灵巧操作中手腕视角遮挡问题，提升真实世界灵巧操作性能。直接针对触觉/视觉融合痛点，方法具有明确的工程应用路径。

cs.RO 閱讀原文

Practical VLA 2026-04-25

From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

Yiming Zhong et al. · 提出残差桥接机制，将高层语义意图与低层物理控制对齐，缓解生成式 VLA 的时空尺度失配问题。提供了改进策略稳定性的具体模块，具备复用价值。

cs.RO 閱讀原文

Practical VLA 2026-04-25

VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis

Songen Gu et al. · 通过时空感知视图合成增强机器人对相机视角变化的鲁棒性。解决了固定视角训练导致的泛化瓶颈，方法可直接集成到现有 VLA 流水线中。

cs.RO 閱讀原文

Practical VLA 2026-04-25

Long-Horizon Manipulation via Trace-Conditioned VLA Planning

Isabella Liu et al. · 提出 LoHo-Manip 框架，利用轨迹条件化扩展短视界 VLA 以处理长视界任务。模块化设计易于集成，有效缓解误差累积问题，具有实操价值。

cs.RO 閱讀原文

Practical VLA 2026-04-25

Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation

Zijian Song et al. · 引入 PhysGen，利用预训练视频生成模型学习物理规律以辅助策略学习。提供了一种利用通用视频模型增强机器人物理常识的新范式，具有创新性。

cs.RO 閱讀原文

Practical VLA 2026-04-25

FingerEye: Continuous and Unified Vision-Tactile Sensing for Dexterous Manipulation

Zhixuan Xu et al. · 提出 FingerEye 实现连续统一的视触感知，覆盖接触前、中、后全阶段。填补了灵巧操作中多模态连续反馈感知的空白，对触觉 VLA 研究极具价值。

cs.RO 閱讀原文

Practical VLA 2026-04-25

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

Yiyang Du et al. · 提出中间训练（Mid-training）策略，使通用 VLM 更好地适应具身领域。提供了从 VLM 到 VLA 的高效迁移路径，方法简单有效，易于复现。

cs.AI 閱讀原文

Practical VLA 2026-04-25

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Adriana Aida et al. · 将世界模型落地于工业真实部署，解决 VLA 反应式控制的局限性。提供了工业级长视界执行的工程洞见和数据集，具有极高的实际应用参考值。

cs.AI 閱讀原文

Practical VLA 2026-04-25

Bimanual Robot Manipulation via Multi-Agent In-Context Learning

Alessio Palma et al. · 利用多智能体上下文学习（ICL）实现双臂协作，无需任务特定训练。展示了 LLM 在复杂协调任务中的零样本潜力，方法新颖且具启发性。

cs.AI 閱讀原文

Practical VLA 2026-04-25

VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation

Qianxi Hua et al. · 发布 VTouch++ 数据集，包含丰富的视触双模态信号用于双臂操作。填补了接触丰富任务中多模态数据的空白，极具数据复用价值。

cs.AI 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-04-25

From embodied intelligence to physical AI

Nature 综述文章，探讨从具身智能到物理 AI 的范式转变。属于领域宏观视角，无具体算法或实验贡献，适合了解趋势但不具备即时工程价值。

Nature-MI 閱讀原文

Background VLA 2026-04-25

How VLAs (Really) Work In Open-World Environments

分析 VLA 在 BEHAVIOR1K 等开放世界基准上的表现。偏向于现象分析和评估报告，未提出新的架构或训练方法，属于值得关注的评估类工作。

hf-papers 閱讀原文

Background VLA 2026-04-25

A Replicable Robotics Awareness Method Using LLM-Enabled Robotics Interaction: Evidence from a Corporate Challenge

S. A. Prieto et al. · 基于企业挑战赛案例，研究 LLM 在人机交互中的结构化作用。侧重社会技术系统评估，缺乏底层 VLA 算法创新，属于相邻领域的实证研究。

cs.RO 閱讀原文

Background VLA 2026-04-25

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Weirui Ye et al. · 旧文重发（v5），探讨利用基础模型先验加速 RL。虽相关但非最新突破，且重点在于 RL 效率而非 VLA 架构本身，归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-04-25

Demystifying Action Space Design for Robotic Manipulation Policies

Yuchun Feng et al. · 深入分析动作空间设计对模仿学习的影响。属于重要的理论分析与消融研究，有助于理解现有 VLA 设计选择，但非新方法论提出。

cs.RO 閱讀原文

Background VLA 2026-04-25

ExpressMM: Expressive Mobile Manipulation Behaviors in Human-Robot Interactions

Souren Pashangpour et al. · 关注移动操作机器人在人机交互中的表达性行为。侧重社交机器人学与非语言沟通，与核心 VLA 操作技能学习关联度较低。

cs.RO 閱讀原文

Background VLA 2026-04-25

Rectified Schr\"odinger Bridge Matching for Few-Step Visual Navigation

Wuyang Luan et al. · arXiv:2604.05673v2 Announce Type: replace Abstract: Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into continuous, long-horizon action trajectories. While generative policies based on diffusion models and Schr\"odinger Bridges (SB) effectively capture multimodal action distributions, they require dozens of integration steps due to high-variance stochastic transport, posing a critical barrier for real-time robo

cs.RO 閱讀原文

Background VLA 2026-04-25