VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-07

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

RLDX-1 Technical Report Dongyoung Kim et al. · 技术报告，介绍 RLDX-1 VLA 模型。摘要未提供具体架构创新或基准测试对比数据，缺乏评估其战略价值的量化证据。 CS.RO
BifrostUMI: Bridging Robot-Free Demonstrations and Humanoid Whole-Body Manipulation [TU Munich] Chenhao Yu et al. · 提出 BifrostUMI，利用无机器人演示数据训练人形全身操作策略，解决数据采集瓶颈。为低成本获取高质量人形机器人训练数据提供了可行路径。 CS.RO
Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing Zhiyuan Li et al. · 通过解耦跨实体视频编辑来缩小人机形态差异，旨在从人类视频学习机器人操作。目前仅涉及视觉表征对齐，缺乏明确的机器人控制策略验证。 CS.RO
Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses Xiao Li et al. · 具身智能安全综述，涵盖风险、攻击与防御。属于重要但非紧急的背景知识梳理，不直接提供新的 VLA 算法或工程实现方案。 CS.RO
OGPO: Sample Efficient Full-Finetuning of Generative Control Policies Sarvesh Patil et al. · 提出 OGPO 算法，实现生成式控制策略（如 Diffusion Policy）的高效全量微调。显著降低样本需求，可直接应用于现有 VLA 模型的离线强化学习精调。 CS.RO
AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI Haiqin Cui et al. · 开源低成本双臂移动操作平台 AhaRobot，旨在降低 VLA 数据收集门槛。提供完整硬件设计与 teleoperation 接口，适合团队快速构建数据采集系统。 CS.RO
RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation Yi Ru Wang et al. · 推出 RoboEval 评估框架，引入行为与结果指标以替代单一成功率。为 VLA 策略提供更细粒度的性能分析工具，有助于诊断模型在复杂任务中的具体缺陷。 CS.RO
OmniUMI: Towards Physically Grounded Robot Learning via Human-Aligned Multimodal Interaction Shaqi Luo et al. · 扩展 UMI 范式至多模态交互，引入物理接触信号以增强机器人学习的物理 grounding。为提升 VLA 在接触丰富任务中的表现提供了新的数据收集维度。 CS.RO
FingerViP: Learning Real-World Dexterous Manipulation with Fingertip Visual Perception Zhen Zhang et al. · 提出 FingerViP 系统，利用指尖视觉感知解决灵巧操作中手腕视角遮挡问题。在真实世界灵巧操作任务中显著提升性能，为触觉/视觉融合 VLA 提供新视角。 CS.RO
VOFA: Visual Object Goal Pushing with Force-Adaptive Control for Humanoids Zichao Hu et al. · 针对人形机器人推重物任务，结合视觉目标与力自适应控制。虽涉及具身控制，但侧重于特定技能而非通用 VLA 架构，且缺乏大规模泛化实验。 CS.RO
Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study Yubai Wei et al. · 实证研究显式物理可行性约束对 VLA 学习的影响。揭示传统模仿学习中忽略物理约束的弊端，为改进 VLA 训练目标和损失函数提供关键工程洞见。 CS.RO
VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU Bin Xu et al. · 优化 GPU 上 CUDA 与 Vulkan 的资源共享，加速具身 AI 仿真环境。属于底层系统优化，虽有益但非 VLA 算法核心进展，适用性较窄。 CS.AI

2026-05-07

VLA 研究日報VLA 研究日报

13 篇 11 篇共 24 篇

🔧 技術技术

Practical VLA [TU Munich] 2026-05-07

BifrostUMI: Bridging Robot-Free Demonstrations and Humanoid Whole-Body Manipulation

Chenhao Yu et al. · 提出 BifrostUMI，利用无机器人演示数据训练人形全身操作策略，解决数据采集瓶颈。为低成本获取高质量人形机器人训练数据提供了可行路径。

cs.RO 閱讀原文

Practical VLA 2026-05-07

OGPO: Sample Efficient Full-Finetuning of Generative Control Policies

Sarvesh Patil et al. · 提出 OGPO 算法，实现生成式控制策略（如 Diffusion Policy）的高效全量微调。显著降低样本需求，可直接应用于现有 VLA 模型的离线强化学习精调。

cs.RO 閱讀原文

Practical VLA 2026-05-07

AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI

Haiqin Cui et al. · 开源低成本双臂移动操作平台 AhaRobot，旨在降低 VLA 数据收集门槛。提供完整硬件设计与 teleoperation 接口，适合团队快速构建数据采集系统。

cs.RO 閱讀原文

Practical VLA 2026-05-07

RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation

Yi Ru Wang et al. · 推出 RoboEval 评估框架，引入行为与结果指标以替代单一成功率。为 VLA 策略提供更细粒度的性能分析工具，有助于诊断模型在复杂任务中的具体缺陷。

cs.RO 閱讀原文

Practical VLA 2026-05-07

OmniUMI: Towards Physically Grounded Robot Learning via Human-Aligned Multimodal Interaction

Shaqi Luo et al. · 扩展 UMI 范式至多模态交互，引入物理接触信号以增强机器人学习的物理 grounding。为提升 VLA 在接触丰富任务中的表现提供了新的数据收集维度。

cs.RO 閱讀原文

Practical VLA 2026-05-07

FingerViP: Learning Real-World Dexterous Manipulation with Fingertip Visual Perception

Zhen Zhang et al. · 提出 FingerViP 系统，利用指尖视觉感知解决灵巧操作中手腕视角遮挡问题。在真实世界灵巧操作任务中显著提升性能，为触觉/视觉融合 VLA 提供新视角。

cs.RO 閱讀原文

Practical VLA 2026-05-07

Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study

Yubai Wei et al. · 实证研究显式物理可行性约束对 VLA 学习的影响。揭示传统模仿学习中忽略物理约束的弊端，为改进 VLA 训练目标和损失函数提供关键工程洞见。

cs.RO 閱讀原文

Practical VLA 2026-05-07

Phone2Act: A Low-Cost, Hardware-Agnostic Teleoperation System for Scalable VLA Data Collection

Om Mandhane et al. · 开发 Phone2Act 手机遥操作系统，实现低成本、硬件无关的 VLA 数据收集。极大降低数据获取门槛，本周即可部署用于扩充多样化操作数据集。

cs.AI 閱讀原文

Practical VLA 2026-05-07

CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation

Berk \c{C}i\c{c}ek et al. · 提出 CoRAL，利用 LLM 进行接触丰富操作的自适应控制。结合高层语义推理与底层控制，为解决 VLA 在复杂接触任务中的局限性提供新思路。

cs.AI 閱讀原文

Practical VLA 2026-05-07

STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction

Jinhao Li et al. · 提出 STEP 方法，通过时空一致性预测预热视觉运动策略，加速 Diffusion Policy 推理。显著减少去噪步数，可直接集成以提升现有 VLA 模型的实时性。

cs.AI 閱讀原文

Practical VLA 2026-05-07

RoboAlign-R1: Distilled Multimodal Reward Alignment for Robot Video World Models

Hao Wu et al. · 提出 RoboAlign-R1，通过蒸馏多模态奖励对齐机器人视频世界模型。改善世界模型对指令跟随能力的对齐，为基于世界模型的 VLA 规划提供新训练目标。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-07

RLDX-1 Technical Report

Dongyoung Kim et al. · 技术报告，介绍 RLDX-1 VLA 模型。摘要未提供具体架构创新或基准测试对比数据，缺乏评估其战略价值的量化证据。

cs.RO 閱讀原文

Background VLA 2026-05-07

Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing

Zhiyuan Li et al. · 通过解耦跨实体视频编辑来缩小人机形态差异，旨在从人类视频学习机器人操作。目前仅涉及视觉表征对齐，缺乏明确的机器人控制策略验证。

cs.RO 閱讀原文

Background VLA 2026-05-07

Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses

Xiao Li et al. · 具身智能安全综述，涵盖风险、攻击与防御。属于重要但非紧急的背景知识梳理，不直接提供新的 VLA 算法或工程实现方案。

cs.RO 閱讀原文

Background VLA 2026-05-07

VOFA: Visual Object Goal Pushing with Force-Adaptive Control for Humanoids

Zichao Hu et al. · 针对人形机器人推重物任务，结合视觉目标与力自适应控制。虽涉及具身控制，但侧重于特定技能而非通用 VLA 架构，且缺乏大规模泛化实验。

cs.RO 閱讀原文

Background VLA 2026-05-07

VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU

Bin Xu et al. · 优化 GPU 上 CUDA 与 Vulkan 的资源共享，加速具身 AI 仿真环境。属于底层系统优化，虽有益但非 VLA 算法核心进展，适用性较窄。

cs.AI 閱讀原文

Background VLA 2026-05-07

IMPACT-HOI: Supervisory Control for Onset-Anchored Partial HOI Event Construction

Haoshen Zhang et al. · 提出 IMPACT-HOI 框架用于标注人机交互视频事件图。作为数据预处理工具，间接支持机器人学习，但本身不涉及控制策略或 VLA 架构。

cs.AI 閱讀原文

Background VLA 2026-05-07

VILAS: A VLA-Integrated Low-cost Architecture with Soft Grasping for Robotic Manipulation

Zijian An (Luna) et al. · 集成 VLA 的低成本软体抓取平台 VILAS。主要贡献在于硬件系统集成，算法层面未见显著创新，更多是工程实现案例。

cs.AI 閱讀原文

Background VLA 2026-05-07

Learning Equivariant Neural-Augmented Object Dynamics From Few Interactions

Sergio Orozco et al. · 学习等变神经增强的物体动力学模型，适用于可变形物体。侧重动力学建模而非端到端 VLA 控制，方法相邻但应用路径尚不明确。

cs.AI 閱讀原文

Background VLA 2026-05-07

Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms

Muyang He et al. · 综述视频生成模型作为世界模型的范式与算法。理论性强，但未提供具体的机器人控制应用方案或实证结果，属于背景阅读材料。

cs.CV 閱讀原文

Background VLA 2026-05-07

Learning Reactive Dexterous Grasping via Hierarchical Task-Space RL Planning and Joint-Space QP Control

Ho Jae Lee et al. · 分层 RL 与 QP 控制结合的灵巧抓取方法。侧重传统控制与 RL 混合架构，未体现 VLA 的多模态语言条件特性，与主流 VLA 研究方向偏离。

cs.RO 閱讀原文

Background VLA 2026-05-07

Latent State Design for World Models under Sufficiency Constraints

Keon Woo Kim · 探讨充分性约束下的世界模型潜状态设计。理论深度高，但缺乏具体的机器人实验验证，难以直接转化为 VLA 架构改进。

cs.AI 閱讀原文

Background VLA 2026-05-07

A Benchmark for Interactive World Models with a Unified Action Generation Framework

Jianjie Fang et al. · 提出交互式世界模型基准及统一动作生成框架。虽涉及动作生成，但重点在于评估基准构建，对 VLA 算法本身的直接推动有限。

cs.CV 閱讀原文

Background VLA 2026-05-07

Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

Haoyu Wu et al. · 结合视频扩散与 3D 表示以实现几何一致的世界建模。侧重视觉表征学习，未明确展示其在机器人控制策略中的应用效果。

cs.CV 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-07