VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-19

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

PhysBrain 1.0 Technical Report Shijie Lian et al. · 提出利用大规模人类第一人称视频补充机器人轨迹数据，以增强物理理解。属于数据源扩展方向，但缺乏具体VLA架构改进或Benchmark对比实验支撑其有效性。 CS.RO
Diffusion Policy for Coordinated Control of a Nonholonomic Mobile Base and Dual Arms in Door Opening and Passing Shangqun Yu et al. · 将Diffusion Policy应用于非完整移动基座与双臂协同开门任务。提供了具体的多模态控制工程实现案例，展示了DP在复杂动力学约束下的应用潜力，具有直接参考价值。 CS.RO
FLASH: Efficient Visuomotor Policy via Sparse Sampling Jiaqi Bai et al. · 针对生成式视觉运动策略推理延迟高的问题，提出基于稀疏采样的加速方法。旨在解决实时控制瓶颈，若代码开源可显著降低部署门槛，属于高实用性的工程优化。 CS.RO
SkiP: When to Skip and When to Refine for Efficient Robot Manipulation Mingtong Dai et al. · 提出动态跳过平滑运动阶段、仅在接触丰富阶段细化动作的策略。通过减少无效计算提升效率，方法直观且易于集成到现有IL框架中，具备本周复用的可行性。 CS.RO
KaRMA: A Kinematic Metric for Fine Manipulation Ability in Robotic Hands Martin Peticco et al. · 提出一种衡量灵巧手连续操作能力的运动学指标。虽对硬件评估有价值，但属于纯度量研究，未涉及VLA算法创新或控制策略，对软件研究者紧迫性较低。 CS.RO
Feedback World Model Enables Precise Guidance of Diffusion Policy Tuo An et al. · 引入反馈世界模型纠正扩散策略在分布外状态下的预测偏差。解决了WM不可靠导致引导失效的核心痛点，为结合WM与DP提供了新的技术路径，值得深入阅读。 CS.RO
Hierarchical and Holistic Open-Vocabulary Functional 3D Scene Graphs for Indoor Spaces Xinggang Hu et al. · 构建开放词汇的功能性3D场景图以支持室内操作。侧重于场景表示学习，虽与Embodied AI相关，但未明确展示如何直接驱动VLA决策或提升操作成功率，应用路径不清晰。 CS.RO
GAP: Geometric Anchor Pre-training for Data-Efficient Visuomotor Learning of Manipulation Tasks Davide Buoso et al. · 提出几何锚点预训练方法，从RGB中提取控制相关几何特征以提升小样本学习效率。直接针对数据稀缺痛点，方法具有明确的模块化优势，便于嵌入现有VLA pipeline。 CS.RO
FocalPolicy: Frequency-Optimized Chunking and Locally Anchored Flow Matching for Coherent Visuomotor Policy Qian He et al. · 结合频域优化分块与局部锚定流匹配以生成连贯轨迹。方法较为新颖但摘要未提供显著的SOTA超越证据，且流匹配本身已较复杂，需正文验证其实际增益是否值得工程投入。 CS.RO
OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation [HKUST] Yunyang Mo (The Hong Kong University of Science et al. · 利用在线人类偏好指导RL探索以解决安全与效率问题。虽涉及人机交互，但主要贡献在于RL奖励 shaping机制，未明确结合VLA大模型能力，属于传统RL改进。 CS.RO
Learning Sim-Grounded Policies for Bimanual Rope Manipulation from Human Teleoperation Data Gina Wigginghaus et al. · 针对双臂绳索操作这一难点，利用遥操作数据训练仿真接地策略。虽解决特定长尾问题，但仅针对变形体线性对象，通用性有限，且依赖特定数据采集流程。 CS.RO
Health-Conditioned Vision-Language-Action Models for Malfunction-Aware Robot Control H\"useyin Arslan et al. · 提出健康条件VLA模型，使机器人能感知并适应自身物理故障。填补了VLA在鲁棒性与故障恢复方面的空白，为长期自主运行提供了新思路，具有独特的工程价值。 CS.RO

2026-05-19

VLA 研究日報VLA 研究日报

20 篇 11 篇共 31 篇

🔧 技術技术

Practical VLA 2026-05-19

Diffusion Policy for Coordinated Control of a Nonholonomic Mobile Base and Dual Arms in Door Opening and Passing

Shangqun Yu et al. · 将Diffusion Policy应用于非完整移动基座与双臂协同开门任务。提供了具体的多模态控制工程实现案例，展示了DP在复杂动力学约束下的应用潜力，具有直接参考价值。

cs.RO 閱讀原文

Practical VLA 2026-05-19

FLASH: Efficient Visuomotor Policy via Sparse Sampling

Jiaqi Bai et al. · 针对生成式视觉运动策略推理延迟高的问题，提出基于稀疏采样的加速方法。旨在解决实时控制瓶颈，若代码开源可显著降低部署门槛，属于高实用性的工程优化。

cs.RO 閱讀原文

Practical VLA 2026-05-19

SkiP: When to Skip and When to Refine for Efficient Robot Manipulation

Mingtong Dai et al. · 提出动态跳过平滑运动阶段、仅在接触丰富阶段细化动作的策略。通过减少无效计算提升效率，方法直观且易于集成到现有IL框架中，具备本周复用的可行性。

cs.RO 閱讀原文

Practical VLA 2026-05-19

Feedback World Model Enables Precise Guidance of Diffusion Policy

Tuo An et al. · 引入反馈世界模型纠正扩散策略在分布外状态下的预测偏差。解决了WM不可靠导致引导失效的核心痛点，为结合WM与DP提供了新的技术路径，值得深入阅读。

cs.RO 閱讀原文

Practical VLA 2026-05-19

GAP: Geometric Anchor Pre-training for Data-Efficient Visuomotor Learning of Manipulation Tasks

Davide Buoso et al. · 提出几何锚点预训练方法，从RGB中提取控制相关几何特征以提升小样本学习效率。直接针对数据稀缺痛点，方法具有明确的模块化优势，便于嵌入现有VLA pipeline。

cs.RO 閱讀原文

Practical VLA 2026-05-19

Health-Conditioned Vision-Language-Action Models for Malfunction-Aware Robot Control

H\"useyin Arslan et al. · 提出健康条件VLA模型，使机器人能感知并适应自身物理故障。填补了VLA在鲁棒性与故障恢复方面的空白，为长期自主运行提供了新思路，具有独特的工程价值。

cs.RO 閱讀原文

Practical VLA 2026-05-19

Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking

Vaidehi Bagaria et al. · 提出概率分块掩码以加速VLA的RL后训练，聚焦于结果发散的关键片段。直接针对VLA RL计算昂贵的痛点，方法具有明确的效率提升潜力，适合快速跟进。

cs.RO 閱讀原文

Practical VLA 2026-05-19

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

Ralf R\"omer et al. · 提出通过适配器路由与扩展实现VLA的持续学习，避免灾难性遗忘。解决了VLA在多任务长期部署中的核心难题，模块化设计便于集成，具有高复用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-19

Sparse ActionGen: Accelerating Diffusion Policy with Real-time Pruning

Kangye Ji et al. · 通过实时剪枝加速Diffusion Policy推理。与FLASH类似，致力于解决DP实时性瓶颈，若效果显著可为资源受限平台提供可行方案，值得对比测试。

cs.RO 閱讀原文

Practical VLA 2026-05-19

UAM: A Dual-Stream Perspective on Forgetting in VLA Training

Jianke Zhang et al. · 分析VLA训练中VLM多模态能力退化的现象并提出双流视角。揭示了微调带来的副作用，为保持VLA通用语言能力提供理论依据和潜在解决方案，极具洞察。

cs.AI 閱讀原文

Practical VLA 2026-05-19

Offline Semantic Guidance for Efficient Vision-Language-Action Policy Distillation

Jin Shi et al. · 提出离线语义引导以高效蒸馏VLA策略，降低推理成本。针对大模型部署难题，提供无需在线交互的蒸馏方案，具有明确的工程落地价值。

cs.AI 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-19

PhysBrain 1.0 Technical Report

Shijie Lian et al. · 提出利用大规模人类第一人称视频补充机器人轨迹数据，以增强物理理解。属于数据源扩展方向，但缺乏具体VLA架构改进或Benchmark对比实验支撑其有效性。

cs.RO 閱讀原文

Background VLA 2026-05-19

KaRMA: A Kinematic Metric for Fine Manipulation Ability in Robotic Hands

Martin Peticco et al. · 提出一种衡量灵巧手连续操作能力的运动学指标。虽对硬件评估有价值，但属于纯度量研究，未涉及VLA算法创新或控制策略，对软件研究者紧迫性较低。

cs.RO 閱讀原文

Background VLA 2026-05-19

Hierarchical and Holistic Open-Vocabulary Functional 3D Scene Graphs for Indoor Spaces

Xinggang Hu et al. · 构建开放词汇的功能性3D场景图以支持室内操作。侧重于场景表示学习，虽与Embodied AI相关，但未明确展示如何直接驱动VLA决策或提升操作成功率，应用路径不清晰。

cs.RO 閱讀原文

Background VLA 2026-05-19

FocalPolicy: Frequency-Optimized Chunking and Locally Anchored Flow Matching for Coherent Visuomotor Policy

Qian He et al. · 结合频域优化分块与局部锚定流匹配以生成连贯轨迹。方法较为新颖但摘要未提供显著的SOTA超越证据，且流匹配本身已较复杂，需正文验证其实际增益是否值得工程投入。

cs.RO 閱讀原文

Background VLA [HKUST] 2026-05-19

OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation

Yunyang Mo (The Hong Kong University of Science et al. · 利用在线人类偏好指导RL探索以解决安全与效率问题。虽涉及人机交互，但主要贡献在于RL奖励 shaping机制，未明确结合VLA大模型能力，属于传统RL改进。

cs.RO 閱讀原文

Background VLA 2026-05-19

Learning Sim-Grounded Policies for Bimanual Rope Manipulation from Human Teleoperation Data

Gina Wigginghaus et al. · 针对双臂绳索操作这一难点，利用遥操作数据训练仿真接地策略。虽解决特定长尾问题，但仅针对变形体线性对象，通用性有限，且依赖特定数据采集流程。

cs.RO 閱讀原文

Background VLA 2026-05-19

DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

Hanwen Wang et al. · 发布MuJoCo上的灵巧操作基准测试工具包。作为数据集/基准类工作，重要但不紧急，有助于标准化评估，但对当前算法研发无直接推动作用。

cs.RO 閱讀原文

Background VLA 2026-05-19

Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning

Dillon Z. Chen et al. · 结合符号世界模型与双层策略解决长视界规划。方法偏向传统分层规划与符号AI，与当前主流端到端VLA范式差异较大，迁移成本较高。

cs.RO 閱讀原文

Background VLA 2026-05-19

STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System

Zhen Luo et al. · 通过语义-物理双系统生成仿真就绪的桌面布局。主要服务于数据合成与仿真环境构建，间接辅助VLA训练，非核心控制算法进展。

cs.RO 閱讀原文

Background VLA 2026-05-19

Empowering Robot Teleoperation: Exploring the Synergies Between Devices and Manipulator Controllers in a Comparative Study

Yuxuan Zhao et al. · 比较不同遥操作设备与控制器的协同效应。属于系统工程评估类论文，缺乏算法创新，对VLA模型架构设计无直接启发。

cs.RO 閱讀原文

Background VLA 2026-05-19

Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision

Alessandro Adami et al. · 利用合成神经符号监督从VLM学习结构化策略。试图结合符号逻辑与端到端学习，但摘要未展示其在真实机器人操作中的性能优势，应用路径尚不明确。

cs.RO 閱讀原文

Background VLA 2026-05-19

A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics

Fawad Javed Fateh et al. · 提出分层时空动作Tokenizers以支持上下文模仿学习。属于动作表征层面的改进，虽有助于ICL，但缺乏与主流VLA基线的充分对比，优先级中等。

cs.RO 閱讀原文

Background VLA 2026-05-19

DiLA: Disentangled Latent Action World Models

Tianqiu Zhang et al. · 提出解耦潜在动作世界模型以平衡抽象与保真度。虽涉及世界模型，但侧重视频预测质量，未明确展示其对VLA控制策略的直接增益，相关性较弱。

cs.RO 閱讀原文

Background VLA 2026-05-19

Towards Robotic Dexterous Hand Intelligence: A Survey

Weiguang Zhao et al. · 关于灵巧手智能的综述文章。虽涵盖广泛，但作为Survey不提供即时可用的新方法或代码，归类为值得了解但不紧急。

cs.RO 閱讀原文

Background VLA [University of Edinburgh] 2026-05-19

Imperfect World Models are Exploitable

Logan Mondal Bhamidipaty (University of Edinburgh) et al. · 理论分析不完美的世界模型如何被策略利用。提供理论洞见，但缺乏具体的VLA架构改进或实验验证，对工程实践指导有限。

cs.AI 閱讀原文

Background VLA 2026-05-19

Deterministic Event-Graph Substrates as World Models for Counterfactual Reasoning

Fabio Rovai · 提出确定性事件图基底用于反事实推理的世界模型。侧重符号逻辑与因果推理，与当前主流基于神经网络的VLA范式差异较大，融合难度高。

cs.AI 閱讀原文

Background VLA 2026-05-19

Latent Video Prediction Learns Better World Models

Ali J Alrasheed et al. · 探讨潜空间视频预测与世界模型能力的关系。主要贡献在于评估指标与分析，未提出新的VLA控制架构，属于基础研究。

cs.AI 閱讀原文

Background VLA 2026-05-19

Structure Abstraction and Generalization in a Hippocampal-Entorhinal Inspired World Model

Tianqiu Zhang et al. · 受海马-内嗅皮层启发的世界模型结构抽象研究。偏向神经科学启发的算法理论，尚未转化为具体的VLA工程方案，优先级低。

cs.AI 閱讀原文

Background VLA 2026-05-19

Entity-Centric World Models: Interaction-Aware Masking for Causal Video Prediction

Santosh Kumar Paidi · 提出实体中心的世界模型以改进因果视频预测。虽涉及物体交互，但重点在视频生成质量，未展示对机器人控制策略的提升，相关性一般。

cs.CV 閱讀原文

Background VLA 2026-05-19

EgoExo-WM: Unlocking Exo Video for Ego World Models

Danny Tran et al. · 利用第三人称视频增强第一人称世界模型。属于数据利用方向，虽有趣但缺乏具体的VLA控制实验验证，应用路径不明。

cs.CV 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-19