VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-06

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Online Safety Filter for Deformable Object Manipulation with Horizon Agnostic Neural Operators Jiaxing Li et al. · 针对可变形物体操作提出基于神经算子的在线安全过滤器，解决传统RL奖励塑造缺乏显式安全保证的问题。属于控制理论在机器人中的应用，非VLA核心架构创新。 CS.RO
Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery Wenhao Li et al. · 引入元认知机制和主动状态监控，使VLA模型具备动态推理和错误恢复能力。提供了提升VLA鲁棒性的新工程思路，适合关注长序列任务稳定性的研究者参考。 CS.RO
VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model Wenhao Li et al. · 提出自适应测试时计算（ATTC）策略，通过相对动作评判模型动态调整推理深度以平衡速度与精度。为VLA部署中的算力优化提供了具体可行的技术方案。 CS.RO
To Do or Not to Do: Ensuring the Safety of Visuomotor Policies Learned from Demonstrations Riad Ahmed et al. · 探讨从演示学习的视觉运动策略的安全性问题，旨在超越单纯的任务成功率指标。侧重于IL的安全边界分析，虽相关但非VLA架构层面的直接突破。 CS.RO
A Principled Approach for Creating High-fidelity Synthetic Demonstrations for Imitation Learning Moniruzzaman Akash et al. · 利用3D Gaussian Splatting生成高保真合成演示数据，解决IL中数据稀缺问题。主要贡献在于数据合成管线，对VLA数据增强有参考价值，但非核心算法创新。 CS.RO
Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation Xitie Zhang et al. · 提出分解与重组方法，利用已有技能推理新任务，旨在提升跨任务泛化能力。属于上下文学习在机器人中的应用探索，实验细节需进一步确认其VLA相关性。 CS.RO
VOFA: Visual Object Goal Pushing with Force-Adaptive Control for Humanoids Zichao Hu et al. · 针对人形机器人提出视觉目标推动的力自适应控制方法。侧重于特定物理交互技能的控制层实现，而非通用的VLA感知-决策框架。 CS.RO
An Efficient Metric for Data Quality Measurement in Imitation Learning Noushad Sojib et al. · 提出一种用于衡量模仿学习数据质量的度量指标，辅助OOD场景下的微调。属于数据-centric AI范畴，对VLA训练数据筛选有间接帮助，非核心模型改进。 CS.RO
Hydra-DP3: Frequency-Aware Right-Sizing of 3D Diffusion Policies for Visuomotor Control Jinhao Zhang et al. · 从频域视角重新审视扩散策略，提出频率感知的3D扩散策略裁剪方法（Hydra-DP3）。显著降低计算开销同时保持性能，为Diffusion Policy的高效部署提供实用工具。 CS.RO
Anticipation-VLA: Solving Long-Horizon Embodied Tasks via Anticipation-based Subgoal Generation Zhilong Zhang et al. · 通过基于预期的子目标生成机制解决VLA在长视界任务中的规划难题。将高层规划与底层执行解耦，为提升VLA复杂任务成功率提供了新的架构模块。 CS.RO
Phone2Act: A Low-Cost, Hardware-Agnostic Teleoperation System for Scalable VLA Data Collection Om Mandhane et al. · 提出基于手机的低成本、硬件无关遥操作系统，旨在降低VLA数据采集门槛。解决了数据收集的工程痛点，具有极高的复用价值和社区推广潜力。 CS.RO
VILAS: A VLA-Integrated Low-cost Architecture with Soft Grasping for Robotic Manipulation Zijian An et al. · 介绍VILAS低成本模块化机器人平台，集成软抓取和VLA策略部署。属于系统搭建类工作，虽提及VLA但侧重硬件集成，非算法或理论创新。 CS.RO

2026-05-06

VLA 研究日報VLA 研究日报

17 篇 11 篇 1 篇共 29 篇

⚡ 突破

Breakthrough VLA [Allen Institute] 2026-05-06

MolmoAct2: Action Reasoning Models for Real-world Deployment

Haoquan Fang et al. · 发布MolmoAct2，开源轻量级VLA模型，专为真实世界部署优化，打破闭源模型垄断。在多个基准测试中展现SOTA性能，解决了VLA落地难的核心瓶颈，极具战略意义。

cs.RO 閱讀原文

🔧 技術技术

Practical VLA 2026-05-06

Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery

Wenhao Li et al. · 引入元认知机制和主动状态监控，使VLA模型具备动态推理和错误恢复能力。提供了提升VLA鲁棒性的新工程思路，适合关注长序列任务稳定性的研究者参考。

cs.RO 閱讀原文

Practical VLA 2026-05-06

VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model

Wenhao Li et al. · 提出自适应测试时计算（ATTC）策略，通过相对动作评判模型动态调整推理深度以平衡速度与精度。为VLA部署中的算力优化提供了具体可行的技术方案。

cs.RO 閱讀原文

Practical VLA 2026-05-06

Hydra-DP3: Frequency-Aware Right-Sizing of 3D Diffusion Policies for Visuomotor Control

Jinhao Zhang et al. · 从频域视角重新审视扩散策略，提出频率感知的3D扩散策略裁剪方法（Hydra-DP3）。显著降低计算开销同时保持性能，为Diffusion Policy的高效部署提供实用工具。

cs.RO 閱讀原文

Practical VLA 2026-05-06

Anticipation-VLA: Solving Long-Horizon Embodied Tasks via Anticipation-based Subgoal Generation

Zhilong Zhang et al. · 通过基于预期的子目标生成机制解决VLA在长视界任务中的规划难题。将高层规划与底层执行解耦，为提升VLA复杂任务成功率提供了新的架构模块。

cs.RO 閱讀原文

Practical VLA 2026-05-06

Phone2Act: A Low-Cost, Hardware-Agnostic Teleoperation System for Scalable VLA Data Collection

Om Mandhane et al. · 提出基于手机的低成本、硬件无关遥操作系统，旨在降低VLA数据采集门槛。解决了数据收集的工程痛点，具有极高的复用价值和社区推广潜力。

cs.RO 閱讀原文

Practical VLA 2026-05-06

ShapeGrasp: Simultaneous Visuo-Haptic Shape Completion and Grasping for Improved Robot Manipulation

Lukas Rustler et al. · 结合视觉初始估计与触觉反馈进行迭代形状补全和抓取，模拟人类操作过程。填补了触觉VLA方向的部分空白，为接触丰富型操作提供了具体实现方案。

cs.RO 閱讀原文

Practical VLA 2026-05-06

Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference

Yudong Liu et al. · 提出Latent Bridge机制，通过预测特征增量避免双系统VLA中VLM骨干网的冗余计算。显著提升推理效率，是解决VLA部署瓶颈的高价值工程优化。

cs.RO 閱讀原文

Practical VLA 2026-05-06

Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

Chenyu Hui et al. · 提出高效的Sim-to-Real视频迁移方法，用于VLA数据增强，缩小仿真与现实的视觉域差距。为缓解VLA数据饥渴提供了实用的数据合成路径。

cs.RO 閱讀原文

Practical VLA 2026-05-06

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Zhemeng Zhang et al. · 提出TouchGuide范式，在推理时融合触觉引导视觉运动策略，改善细粒度操作。为触觉VLA提供了即插即用的推理时修正方案，具有较高的实用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-06

STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction

Jinhao Li et al. · 提出STEP方法，利用时空一致性预测对扩散策略进行热启动，加速推理收敛。针对Diffusion Policy的计算瓶颈提供有效优化，易于集成到现有VLA流程中。

cs.RO 閱讀原文

Practical VLA 2026-05-06

Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation

Kevin Yuchen Ma et al. · 提出语义接触场，结合语义规划与精确物理控制，实现类别级的触觉工具操作泛化。填补了VLA在接触丰富工具操作领域的空白，具有明确的触觉VLA应用路径。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-06

Online Safety Filter for Deformable Object Manipulation with Horizon Agnostic Neural Operators

Jiaxing Li et al. · 针对可变形物体操作提出基于神经算子的在线安全过滤器，解决传统RL奖励塑造缺乏显式安全保证的问题。属于控制理论在机器人中的应用，非VLA核心架构创新。

cs.RO 閱讀原文

Background VLA 2026-05-06

To Do or Not to Do: Ensuring the Safety of Visuomotor Policies Learned from Demonstrations

Riad Ahmed et al. · 探讨从演示学习的视觉运动策略的安全性问题，旨在超越单纯的任务成功率指标。侧重于IL的安全边界分析，虽相关但非VLA架构层面的直接突破。

cs.RO 閱讀原文

Background VLA 2026-05-06

A Principled Approach for Creating High-fidelity Synthetic Demonstrations for Imitation Learning

Moniruzzaman Akash et al. · 利用3D Gaussian Splatting生成高保真合成演示数据，解决IL中数据稀缺问题。主要贡献在于数据合成管线，对VLA数据增强有参考价值，但非核心算法创新。

cs.RO 閱讀原文

Background VLA 2026-05-06

Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation

Xitie Zhang et al. · 提出分解与重组方法，利用已有技能推理新任务，旨在提升跨任务泛化能力。属于上下文学习在机器人中的应用探索，实验细节需进一步确认其VLA相关性。

cs.RO 閱讀原文

Background VLA 2026-05-06

VOFA: Visual Object Goal Pushing with Force-Adaptive Control for Humanoids

Zichao Hu et al. · 针对人形机器人提出视觉目标推动的力自适应控制方法。侧重于特定物理交互技能的控制层实现，而非通用的VLA感知-决策框架。

cs.RO 閱讀原文

Background VLA 2026-05-06

An Efficient Metric for Data Quality Measurement in Imitation Learning

Noushad Sojib et al. · 提出一种用于衡量模仿学习数据质量的度量指标，辅助OOD场景下的微调。属于数据-centric AI范畴，对VLA训练数据筛选有间接帮助，非核心模型改进。

cs.RO 閱讀原文

Background VLA 2026-05-06

VILAS: A VLA-Integrated Low-cost Architecture with Soft Grasping for Robotic Manipulation

Zijian An et al. · 介绍VILAS低成本模块化机器人平台，集成软抓取和VLA策略部署。属于系统搭建类工作，虽提及VLA但侧重硬件集成，非算法或理论创新。

cs.RO 閱讀原文

Background VLA 2026-05-06

CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation

Berk Çiçek et al. · 利用LLM进行高层语义理解并结合自适应控制处理接触丰富操作。虽然涉及VLM/LLM，但侧重控制回路设计，与端到端VLA范式有一定距离。

cs.RO 閱讀原文

Background VLA 2026-05-06

Learning Equivariant Neural-Augmented Object Dynamics From Few Interactions

Sergio Orozco et al. · 学习可变形物体的等效神经增强动力学模型，强调数据效率。属于世界模型/动力学建模领域，虽对VLA有用，但非直接的VLA策略学习方法。

cs.RO 閱讀原文

Background VLA 2026-05-06

Towards Efficient and Expressive Offline RL via Flow-Anchored Noise-conditioned Q-Learning

Sungyoung Lee et al. · 提出FAN算法改进离线RL的性能和效率。虽可用于机器人策略学习，但属于通用RL算法改进，未专门针对VLA的多模态特性进行优化。

cs.RO 閱讀原文

Background VLA 2026-05-06

IMPACT-HOI: Supervisory Control for Onset-Anchored Partial HOI Event Construction

Haoshen Zhang et al. · 构建人机交互事件图以提供结构化监督信号，动机源于机器人学习的数据需求。主要贡献在于视频标注框架，非直接的机器人控制方法。

cs.RO 閱讀原文

Background VLA 2026-05-06

Learning to Act Through Contact: A Unified View of Multi-Task Robot Learning

Shafeef Omar et al. · 提出基于接触显式表示的多任务 locomotion 和 manipulation 统一框架。侧重底层策略的统一表征，虽相关但更偏向传统机器人学习而非高层VLA推理。

cs.RO 閱讀原文

Background VLA 2026-05-06

A High-Fidelity Digital Twin for Robotic Manipulation Based on 3D Gaussian Splatting

Ziyang Sun et al. · 基于3DGS构建高保真机器人数字孪生，支持闭环运动规划。主要贡献在仿真环境重建，属于基础设施类工作，非VLA算法本身。

cs.RO 閱讀原文

Background VLA 2026-05-06

MVP-LAM: Learning Action-Centric Latent Action via Cross-Viewpoint Reconstruction

Jung Min Lee et al. · 通过跨视点重构学习以动作为中心的潜在动作，作为VLA预训练的伪标签。侧重于表征学习，对VLA预训练数据利用有启发，但非端到端VLA架构。

cs.RO 閱讀原文

Background VLA 2026-05-06

Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction

Sizhe Yang et al. · 提出Robo3R前馈3D重建模型，提升机器人操作的3D空间感知质量。侧重感知模块的精度提升，虽重要但属于感知层改进，非VLA决策核心。

cs.RO 閱讀原文

Background VLA 2026-05-06

BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances

Yifan Han et al. · 通过统一的工具-目标可供性桥接人类演示与机器人动作，旨在利用大规模人类视频数据。侧重数据映射机制，实验若仅在简单任务验证则创新性有限。

cs.RO 閱讀原文

Background VLA 2026-05-06

KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning

Yixuan Huang et al. · 推出KinDER基准，评估机器人在运动学和动力学约束下的物理推理能力。作为评测数据集，对VLA研究有长期价值，但非即时可用的算法进展。

cs.RO 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-06