VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-04-17

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Jump-Start Reinforcement Learning with Vision-Language-Action Regularization 提出利用 VLA 模型作为正则化项来引导 RL 探索，解决长程任务稀疏奖励难题。核心亮点是将 VLA 的先验知识融入 RL 训练循环，代码开源后可直接用于提升现有 RL 策略的样本效率。 HF-PAPER
ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation 针对移动操作中的长程遗忘问题，提出基于情景空间记忆的自适应执行策略。通过显式记忆模块维持空间一致性，为移动抓取任务提供了可复用的记忆增强架构参考。 HF-PAPER
Evolvable Embodied Agent for Robotic Manipulation via Long Short-Term Reflection and Optimization Jianzong Wang et al. · 主张通过长短期反思机制让机器人自我进化，但摘要缺乏具体技术实现细节和实验验证。属于概念性较强的方法论探讨，暂时无明确代码或数据复用路径。 [💧灌水] CS.RO
A Mechanistic Analysis of Sim-and-Real Co-Training in Generative Robot Policies Yu Lei et al. · 深入分析仿真与真实数据协同训练的内在机制，揭示决定泛化性能的关键因素。为混合数据训练策略提供了理论依据和调参指导，具有明确的工程参考价值。 CS.RO
EmbodiedClaw: Conversational Workflow Execution for Embodied AI Development Xueyang Zhou et al. · 提出通过对话工作流降低多任务具身 AI 开发的工程开销。主要贡献在于开发工具和流程优化，而非核心算法创新，适合关注工程效率的团队了解。 CS.RO
Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection Zhen Liu et al. · 针对 VLA 在长程任务中的脆弱性，提出结合自适应规划与反思的分层系统。通过动态调整观察窗口和引入反思机制，显著提升了复杂任务的完成率，架构可直接借鉴。 CS.RO
UMI-3D: Extending Universal Manipulation Interface from Vision-Limited to 3D Spatial Perception [Stanford] Ziming Wang · 将 UMI 接口扩展至 3D 空间感知，解决单目 SLAM 在数据采集中的局限性。提供了新的多模态数据采集方案和硬件集成思路，对构建高质量数据集有直接帮助。 CS.RO
HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System Tianshuo Yang et al. · 提出以视觉接地为核心的分层 VLA 系统，旨在平衡推理能力与控制精度。摘要未展示具体的层级交互机制或对比实验结果，需进一步确认其相对于现有分层方法的实质提升。 CS.RO
GRITS: A Spillage-Aware Guided Diffusion Policy for Robot Food Scooping Tasks Yen-Ling Tai et al. · 针对食物舀取任务提出防洒落的引导扩散策略。虽然解决了特定场景的动态物体处理问题，但应用场景过于垂直（仅食物），通用性和迁移价值有限。 CS.RO
HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy [CMU] Myungkyu Koo et al. · 首创将历史上下文显式融入 VLA 架构，解决传统 VLA 忽略时间依赖性的核心缺陷。在多个长程操作基准上显著优于 SOTA，提供了即插即用的历史感知模块，极具战略价值。 CS.RO
X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations [Berkeley] Maximus A. Pace et al. · 利用跨具身的人类视频训练扩散策略，解决人机形态差异导致的数据利用难题。方法允许直接使用海量人类视频数据，大幅降低了机器人数据采集成本，实用性强。 CS.RO
IGen: Scalable Data Generation for Robot Learning from Open-World Images Chenghao Gu et al. · 利用开放世界图像生成大规模机器人训练数据，试图缓解真机数据采集瓶颈。思路新颖但摘要未说明如何保证生成数据的物理真实性和动作可行性，存在落地不确定性。 CS.RO

2026-04-17

VLA 研究日報VLA 研究日报

7 篇 12 篇 1 篇共 20 篇

⚡ 突破

Breakthrough VLA [CMU] 2026-04-17

HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy

Myungkyu Koo et al. · 首创将历史上下文显式融入 VLA 架构，解决传统 VLA 忽略时间依赖性的核心缺陷。在多个长程操作基准上显著优于 SOTA，提供了即插即用的历史感知模块，极具战略价值。

cs.RO 閱讀原文

🔧 技術技术

Practical VLA 2026-04-17

Jump-Start Reinforcement Learning with Vision-Language-Action Regularization

提出利用 VLA 模型作为正则化项来引导 RL 探索，解决长程任务稀疏奖励难题。核心亮点是将 VLA 的先验知识融入 RL 训练循环，代码开源后可直接用于提升现有 RL 策略的样本效率。

hf-papers 閱讀原文

Practical VLA 2026-04-17

ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation

针对移动操作中的长程遗忘问题，提出基于情景空间记忆的自适应执行策略。通过显式记忆模块维持空间一致性，为移动抓取任务提供了可复用的记忆增强架构参考。

hf-papers 閱讀原文

Practical VLA 2026-04-17

A Mechanistic Analysis of Sim-and-Real Co-Training in Generative Robot Policies

Yu Lei et al. · 深入分析仿真与真实数据协同训练的内在机制，揭示决定泛化性能的关键因素。为混合数据训练策略提供了理论依据和调参指导，具有明确的工程参考价值。

cs.RO 閱讀原文

Practical VLA 2026-04-17

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

Zhen Liu et al. · 针对 VLA 在长程任务中的脆弱性，提出结合自适应规划与反思的分层系统。通过动态调整观察窗口和引入反思机制，显著提升了复杂任务的完成率，架构可直接借鉴。

cs.RO 閱讀原文

Practical VLA [Stanford] 2026-04-17

UMI-3D: Extending Universal Manipulation Interface from Vision-Limited to 3D Spatial Perception

Ziming Wang · 将 UMI 接口扩展至 3D 空间感知，解决单目 SLAM 在数据采集中的局限性。提供了新的多模态数据采集方案和硬件集成思路，对构建高质量数据集有直接帮助。

cs.RO 閱讀原文

Practical VLA [Berkeley] 2026-04-17

X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations

Maximus A. Pace et al. · 利用跨具身的人类视频训练扩散策略，解决人机形态差异导致的数据利用难题。方法允许直接使用海量人类视频数据，大幅降低了机器人数据采集成本，实用性强。

cs.RO 閱讀原文

Practical VLA 2026-04-17

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

Kaidong Zhang et al. · 推出完全开源、高效截断的 VLA 模型 A1，旨在降低十亿参数模型的部署成本。提供了轻量化架构和完整代码，是资源受限场景下替代大型闭源 VLA 的直接可行方案。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-04-17

Evolvable Embodied Agent for Robotic Manipulation via Long Short-Term Reflection and Optimization

Jianzong Wang et al. · 主张通过长短期反思机制让机器人自我进化，但摘要缺乏具体技术实现细节和实验验证。属于概念性较强的方法论探讨，暂时无明确代码或数据复用路径。 [💧灌水]

cs.RO 閱讀原文

Background VLA 2026-04-17

EmbodiedClaw: Conversational Workflow Execution for Embodied AI Development

Xueyang Zhou et al. · 提出通过对话工作流降低多任务具身 AI 开发的工程开销。主要贡献在于开发工具和流程优化，而非核心算法创新，适合关注工程效率的团队了解。

cs.RO 閱讀原文

Background VLA 2026-04-17

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Tianshuo Yang et al. · 提出以视觉接地为核心的分层 VLA 系统，旨在平衡推理能力与控制精度。摘要未展示具体的层级交互机制或对比实验结果，需进一步确认其相对于现有分层方法的实质提升。

cs.RO 閱讀原文

Background VLA 2026-04-17

GRITS: A Spillage-Aware Guided Diffusion Policy for Robot Food Scooping Tasks

Yen-Ling Tai et al. · 针对食物舀取任务提出防洒落的引导扩散策略。虽然解决了特定场景的动态物体处理问题，但应用场景过于垂直（仅食物），通用性和迁移价值有限。

cs.RO 閱讀原文

Background VLA 2026-04-17

IGen: Scalable Data Generation for Robot Learning from Open-World Images

Chenghao Gu et al. · 利用开放世界图像生成大规模机器人训练数据，试图缓解真机数据采集瓶颈。思路新颖但摘要未说明如何保证生成数据的物理真实性和动作可行性，存在落地不确定性。

cs.RO 閱讀原文

Background VLA 2026-04-17

ROBOGATE: Adaptive Failure Discovery for Safe Robot Policy Deployment via Two-Stage Boundary-Focused Sampling

Azuki Kim · 提出两阶段边界聚焦采样方法来发现部署前的策略失败案例。专注于安全验证环节，虽非核心控制算法，但对工业部署流程有重要补充价值，适合关注落地的团队。

cs.RO 閱讀原文

Background VLA 2026-04-17

Towards Generalizable Robotic Manipulation in Dynamic Environments

Heng Fang et al. · 探讨 VLA 在动态环境中的泛化问题并指出数据稀缺是主因。摘要主要是问题陈述和初步设想，缺乏具体的解决方案或实验数据支撑，属于方向性探讨。 [💧灌水]

cs.RO 閱讀原文

Background VLA 2026-04-17

[Emerging Ideas] Artificial Tripartite Intelligence: A Bio-Inspired, Sensor-First Architecture for Physical AI

You Rim Choi et al. · 提出生物启发的三元智能架构，强调传感器优先设计。属于早期概念构想（Emerging Ideas），尚无具体算法实现或实验验证，适合关注未来架构趋势的研究者浏览。

cs.AI 閱讀原文

Background VLA 2026-04-17

3D Instruction Ambiguity Detection

Jiayu Ding et al. · 研究具身场景中语言指令的歧义检测问题，旨在提升安全性。方法侧重于自然语言理解与 3D 场景的对齐，对于提升人机交互鲁棒性有参考价值，但非核心控制策略。

cs.AI 閱讀原文

Background VLA 2026-04-17

Failure Identification in Imitation Learning Via Statistical and Semantic Filtering

Quentin Rolland et al. · 通过统计和语义过滤识别模仿学习中的失败案例，提升策略鲁棒性。方法主要用于数据清洗和异常检测，是对现有 IL 流程的辅助改进，非核心架构创新。

cs.RO 閱讀原文

Background VLA 2026-04-17

Target-Bench: Can Video World Models Achieve Mapless Path Planning with Semantic Targets?

Dingrui Wang et al. · 发布 Target-Bench 基准，评估视频世界模型在无地图路径规划中的语义推理能力。作为评测工具具有重要价值，但本身不是新的控制方法或架构，归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-04-17

WOMBET: World Model-based Experience Transfer for Robust and Sample-efficient Reinforcement Learning

Mintae Kim et al. · 利用世界模型进行经验迁移以提升 RL 的样本效率。结合了世界模型与迁移学习，但摘要未展示在复杂机器人任务上的具体突破，属于常规组合式研究。

cs.RO 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-04-17