VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-04-11

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation 提出利用图像编辑模型作为 3D 先验来增强开放世界操作泛化性，试图解决 VLA 在新任务上的适应难题。因摘要截断无法确认具体实验基准与对比结果，暂归为值得了解。 HF-PAPER
A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring Wenze Wang et al. · 针对语言引导抓取中的执行失败问题，提出包含状态监控的物理代理闭环框架，支持重试与修正。提供了可复用的执行监控模块设计，适合集成到现有 VLA 推理流程中。 CS.RO
Grasp as You Dream: Imitating Functional Grasping from Generated Human Demonstrations Chao Tang et al. · 利用生成式人类演示数据进行功能抓取模仿学习，旨在解决真实数据稀缺问题。方法依赖合成数据质量，需关注正文中真实机器人迁移效果及与真实数据训练的对比。 CS.RO
EgoVerse: An Egocentric Human Dataset for Robot Learning from Around the World Ryan Punamiya et al. · 发布大规模全球第一人称人类操作数据集 EgoVerse，旨在通过人类数据桥接具身智能的数据缺口。属于重要数据资源，但非算法架构创新，适合数据驱动型研究团队关注。 CS.RO
HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation Shuanghao Bai et al. · 提出 HEX 框架，通过专家对齐策略解决高自由度人形机器人全身控制难题，突破传统 VLA 对肢体独立建模的限制。为人形机器人 VLA 部署提供了新的跨本体迁移思路。 CS.RO
ViVa: A Video-Generative Value Model for Robot Reinforcement Learning Jindi Lv et al. · 结合视频生成与价值函数学习，提出 ViVa 模型以解决 VLA 在部分可观测环境下的长程反馈问题。为 VLA+RL 精调提供了新的价值估计范式，代码开源后可直接复用。 CS.RO
ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration Yanwen Zou et al. · 探索利用主动视觉机制从第一人称演示中学习操作技能，旨在降低数据采集成本。方法侧重于视觉采集策略，需进一步验证在复杂操作任务中的实际增益。 CS.RO
SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds Yunsong Zhou et al. · 提出物理对齐的模拟器 SIM1，专注于可变形物体操作的零样本数据扩展。针对柔性体仿真难点提供了解决方案，适合需要大量可变形物体训练数据的团队参考。 CS.RO
BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields Fan Yang et al. · 在 3D 高斯场中实现语言到灵巧动作的映射，结合语义理解与 3D 定位进行功能抓取。为非结构化环境下的灵巧操作提供了新的场景表示与执行框架。 CS.RO
Reflection-Based Task Adaptation for Self-Improving VLA Baicheng Li et al. · 利用反思机制实现 VLA 模型的在线自我改进与任务适应，试图替代部分 RL 微调过程。概念具有吸引力，但需确认在真实机器人上的迭代效率与稳定性提升。 CS.RO
HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models Minghui Lin et al. · 通过引入后见、洞察与前瞻的运动表示增强 VLA 的时间推理能力，解决马尔可夫假设局限。方法侧重时序建模，需关注其在长程任务中的具体性能提升数据。 CS.RO
UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models Manish Kumar Govind et al. · 提出深度感知的潜在动作学习方法 UniLACT，利用未标注视频预训练 VLA 并弥补纯 RGB 信息的不足。为无动作标签数据的利用提供了新路径，易于集成到现有预训练流程。 CS.RO

2026-04-11

VLA 研究日報VLA 研究日报

23 篇 5 篇共 28 篇

🔧 技術技术

Practical VLA 2026-04-11

A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring

Wenze Wang et al. · 针对语言引导抓取中的执行失败问题，提出包含状态监控的物理代理闭环框架，支持重试与修正。提供了可复用的执行监控模块设计，适合集成到现有 VLA 推理流程中。

cs.RO 閱讀原文

Practical VLA 2026-04-11

HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

Shuanghao Bai et al. · 提出 HEX 框架，通过专家对齐策略解决高自由度人形机器人全身控制难题，突破传统 VLA 对肢体独立建模的限制。为人形机器人 VLA 部署提供了新的跨本体迁移思路。

cs.RO 閱讀原文

Practical VLA 2026-04-11

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Jindi Lv et al. · 结合视频生成与价值函数学习，提出 ViVa 模型以解决 VLA 在部分可观测环境下的长程反馈问题。为 VLA+RL 精调提供了新的价值估计范式，代码开源后可直接复用。

cs.RO 閱讀原文

Practical VLA 2026-04-11

BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields

Fan Yang et al. · 在 3D 高斯场中实现语言到灵巧动作的映射，结合语义理解与 3D 定位进行功能抓取。为非结构化环境下的灵巧操作提供了新的场景表示与执行框架。

cs.RO 閱讀原文

Practical VLA 2026-04-11

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Manish Kumar Govind et al. · 提出深度感知的潜在动作学习方法 UniLACT，利用未标注视频预训练 VLA 并弥补纯 RGB 信息的不足。为无动作标签数据的利用提供了新路径，易于集成到现有预训练流程。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-04-11

LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation

提出利用图像编辑模型作为 3D 先验来增强开放世界操作泛化性，试图解决 VLA 在新任务上的适应难题。因摘要截断无法确认具体实验基准与对比结果，暂归为值得了解。

hf-papers 閱讀原文

Background VLA 2026-04-11

Grasp as You Dream: Imitating Functional Grasping from Generated Human Demonstrations

Chao Tang et al. · 利用生成式人类演示数据进行功能抓取模仿学习，旨在解决真实数据稀缺问题。方法依赖合成数据质量，需关注正文中真实机器人迁移效果及与真实数据训练的对比。

cs.RO 閱讀原文

Background VLA 2026-04-11

EgoVerse: An Egocentric Human Dataset for Robot Learning from Around the World

Ryan Punamiya et al. · 发布大规模全球第一人称人类操作数据集 EgoVerse，旨在通过人类数据桥接具身智能的数据缺口。属于重要数据资源，但非算法架构创新，适合数据驱动型研究团队关注。

cs.RO 閱讀原文

Background VLA 2026-04-11

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

Yanwen Zou et al. · 探索利用主动视觉机制从第一人称演示中学习操作技能，旨在降低数据采集成本。方法侧重于视觉采集策略，需进一步验证在复杂操作任务中的实际增益。

cs.RO 閱讀原文

Background VLA 2026-04-11

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

Yunsong Zhou et al. · 提出物理对齐的模拟器 SIM1，专注于可变形物体操作的零样本数据扩展。针对柔性体仿真难点提供了解决方案，适合需要大量可变形物体训练数据的团队参考。

cs.RO 閱讀原文

Background VLA 2026-04-11

Reflection-Based Task Adaptation for Self-Improving VLA

Baicheng Li et al. · 利用反思机制实现 VLA 模型的在线自我改进与任务适应，试图替代部分 RL 微调过程。概念具有吸引力，但需确认在真实机器人上的迭代效率与稳定性提升。

cs.RO 閱讀原文

Background VLA 2026-04-11

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

Minghui Lin et al. · 通过引入后见、洞察与前瞻的运动表示增强 VLA 的时间推理能力，解决马尔可夫假设局限。方法侧重时序建模，需关注其在长程任务中的具体性能提升数据。

cs.RO 閱讀原文

Background VLA 2026-04-11

Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control

Yuxuan Gao et al. · 提出基于漂移的策略优化方法，实现原生单步策略学习以降低推理延迟。针对多步生成策略的计算瓶颈提出改进，需验证在复杂多模态动作分布下的表现。

cs.RO 閱讀原文

Background VLA [Berkeley|Loquercio] 2026-04-11

RoSHI: A Versatile Robot-oriented Suit for Human Data In-the-Wild

Wenjing Margaret Mao et al. · 发布 RoSHI 便携式数据采集套装，旨在野外环境下收集高质量人类操作数据。硬件与系统贡献为主，为扩大机器人学习数据规模提供了工程基础设施支持。

cs.AI 閱讀原文

Background VLA 2026-04-11

Towards provable probabilistic safety for scalable embodied AI systems

Linxuan He et al. · 探讨具身 AI 系统的概率安全性证明方法，针对罕见故障场景提出理论框架。偏向理论与安全验证，对当前 VLA 架构设计与即时部署的直接指导意义有限。

cs.AI 閱讀原文

Background VLA [Tencent] 2026-04-11

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

Tencent Robotics X et al. · 腾讯推出 HY-Embodied-0.5 具身基础模型系列，旨在 bridging VLM 与具身需求。摘要描述较为宏观，需查看具体架构差异与基准测试以评估其实际技术贡献。

cs.CV 閱讀原文

Background VLA 2026-04-11

DailyArt: Discovering Articulation from Single Static Images via Latent Dynamics

Hang Zhang et al. · 通过潜在动力学从单张静态图像推断关节物体的运动学属性，辅助世界模型构建。解决了遮挡下的结构推断问题，是感知层面的有益补充，非端到端控制。

cs.CV 閱讀原文

Background VLA 2026-04-11

CausalVAE as a Plug-in for World Models: Towards Reliable Counterfactual Dynamics

将因果 VAE 作为插件嵌入世界模型以提升反事实推理能力。方法具有通用性，但摘要未展示具体的机器人操作实验，需确认在具身任务中的实际效用。

hf-papers 閱讀原文

Background VLA 2026-04-11

Event-Centric World Modeling with Memory-Augmented Retrieval for Embodied Decision-Making

Fan Zhaowen · 提出以事件为中心并结合记忆检索的世界模型，用于提升具身决策效率。试图解决端到端学习的黑盒问题，需关注其在动态环境中的具体决策表现。

cs.RO 閱讀原文

Background VLA 2026-04-11

WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models

Hongjin Chen et al. · 利用生成式世界模型引导视觉语言导航轨迹预测，结合 VLM 规划与世界模型推演。专注于导航任务，对于操作类 VLA 研究的直接借鉴意义相对有限。

cs.RO 閱讀原文

Background VLA [CMU|Seita] 2026-04-11

Learning Geometry-Aware Nonprehensile Pushing and Pulling with Dexterous Hands

Yunshuang Li et al. · 研究利用灵巧手进行几何感知的非抓取式推拉操作，拓展了操作原语的范围。针对特定操作模式的有效探索，适合丰富 VLA 的动作空间与技能库。

cs.RO 閱讀原文

Background VLA 2026-04-11

Characterizing the Resilience and Sensitivity of Polyurethane Vision-Based Tactile Sensors

Benjamin Davis et al. · 对聚氨酯材料的视觉触觉传感器进行特性表征与分析，属于硬件与传感器材料研究。为触觉 VLA 提供底层硬件支持，但非算法或架构层面的直接贡献。

cs.RO 閱讀原文

Background VLA 2026-04-11

Discrete Flow Matching Policy Optimization

Maojiang Su et al. · 提出离散流匹配策略优化框架 DoMinO，用于 RL 微调离散流模型。方法论创新，但摘要未明确展示在机器人操作任务上的实验验证，偏向通用强化学习。

cs.AI 閱讀原文

Background VLA 2026-04-11

Flow Motion Policy: Manipulator Motion Planning with Flow Matching Models

Davood Soleymanzadeh et al. · 利用流匹配模型进行机械臂运动规划，实现端到端的神经运动规划器。避免了传统碰撞检查器的依赖，需关注其在复杂障碍物环境中的成功率与平滑度。

cs.AI 閱讀原文

Background VLA 2026-04-11

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

Zaid Khan et al. · 从无引导探索中推断随机环境的符号世界模型，试图用程序表示环境动态。方法偏向符号 AI 与世界模型理论，需验证在连续控制任务中的可扩展性。

cs.AI 閱讀原文

Background VLA 2026-04-11

Toward Memory-Aided World Models: Benchmarking via Spatial Consistency

Kewei Lian et al. · 提出基于空间一致性的基准测试以评估记忆辅助型世界模型。属于评估方法与基准构建工作，对于推动世界模型在具身任务中的可靠性具有参考意义。

cs.AI 閱讀原文

Background VLA 2026-04-11

MotionScape: A Large-Scale Real-World Highly Dynamic UAV Video Dataset for World Models

Zile Guo et al. · 发布面向无人机世界模型的大规模高动态视频数据集 MotionScape。填补了特定领域数据空白，但主要针对 UAV 场景，与地面操作机器人关联性较弱。

cs.CV 閱讀原文

Background VLA 2026-04-11

ODE-free Neural Flow Matching for One-Step Generative Modeling

Xiao Shou · 提出无 ODE 的神经流匹配方法以实现单步生成，旨在加速推理过程。属于生成模型底层算法优化，若应用于 VLA 策略网络可显著提升实时性，值得关注。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-04-11