VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-27

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models 提出针对 VLA 的样本高效 RL 微调框架 EXPO-FT，解决预训练策略在真实任务中可靠性不足的问题。提供可复用的 RL 精调方案，提升 VLA 在特定任务上的表现。 HF-PAPER
Afford-VLA: Action-Aligned Visual Planning via Internalized Affordance Runze Wang et al. · 通过内部化 affordance 机制增强 VLA 的空间推理能力，解决复杂场景中交互点定位难题。引入动作对齐的视觉规划模块，显著提升操作精度。 CS.RO
RoboHitch: Learning Visual Affordance from Disordered Keypoints for Hitch Knots Tying Jiahui Zuo et al. · 针对打结任务提出从无序关键点学习视觉 affordance 的方法，解决变形线性物体操控难点。虽具创新性但局限于特定任务，缺乏通用 VLA 架构贡献。 CS.RO
Smoother Action Chunking Flow Policy via Prior-Corrected Orthogonal Trust-Region Guidance Kai Fang et al. · 改进流匹配策略的动作分块连续性，通过先验校正正交信任域引导消除边界不连续。属于控制算法优化，非 VLA 核心架构或训练范式创新。 CS.RO
Sum of Costs Diffusion with Dynamic Guidance for Motion Planning Aysu Aylin Kaplan et al. · 提出基于成本总和扩散的动态引导运动规划方法，旨在提高泛化性。主要关注路径规划而非端到端 VLA 策略学习，与核心 VLA 研究距离较远。 CS.RO
MuJoCoUni:Persistent Batched Runtime Primitives for MuJoCo Yufei Jia et al. · 为 MuJoCo 提供持久化批量运行时原语，支持在线机器人学习和批量物理评估。显著加速仿真环境下的 VLA 训练与评估流程，工程价值高。 CS.RO
Learning High-Frequency Continuous Action Chunks in Latent Space Kunyun Wang et al. · 探索潜在空间中高频连续动作分块的学习，以弥补中等频率下的时间一致性不足。侧重于动作表示细节优化，未涉及 VLA 整体架构或数据效率突破。 CS.RO
HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos Zhi (Leo) et al. · 利用少量人类第一人称视频实现零样本机器人技能迁移，克服视觉外观和运动学差异。提供跨形态技能转移的新路径，对 VLA 数据扩展有重要启示。 CS.RO
X-DiffVLA: X-Embodied Diffusion Action Heads for Vision-Language-Action Models Boyu Li et al. · 提出跨实体扩散动作头 X-DiffVLA，解决多实体数据统一策略学习的挑战。无需针对特定实体微调即可实现跨平台迁移，增强 VLA 通用性。 CS.RO
InvariantCloud: A Globally Invariant, Uniquely Indexed Point Cloud Framework for Robust 6-DoF Tactile Pose Tracking Pengfei Ye et al. · 构建全局不变且唯一索引的点云框架，用于鲁棒的 6-DoF 触觉姿态跟踪。聚焦触觉感知底层技术，虽对灵巧操作重要但未直接整合进 VLA 决策闭环。 CS.RO
RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation Wenhui Chu · 通过表示引导适配将 SAM 等基础模型应用于机器人视觉，解决 Transformer 层间表示偏移问题。属于感知模块优化，未直接触及 VLA 动作生成核心。 CS.RO
TapSampling: Inference-Time Sampling with a Task-Progress-Understanding Verifier for Robotic Manipulation Sizhe Zhao et al. · 提出推理时采样策略 TapSampling，结合任务进度理解验证器提升生成式模型性能。为 VLA 推理阶段提供新的优化手段，无需重新训练即可改善结果。 CS.RO

2026-05-27

VLA 研究日報VLA 研究日报

12 篇 17 篇 1 篇共 30 篇

⚡ 突破

Breakthrough VLA 2026-05-27

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

Xiaokang Liu et al. · 提出 World-VLA-Loop，实现视频世界模型与 VLA 策略的闭环联合学习。解决真实世界 RL 昂贵且危险的核心瓶颈，在多个基准上展现显著优于 BC 的泛化能力。

cs.RO 閱讀原文

🔧 技術技术

Practical VLA 2026-05-27

EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models

提出针对 VLA 的样本高效 RL 微调框架 EXPO-FT，解决预训练策略在真实任务中可靠性不足的问题。提供可复用的 RL 精调方案，提升 VLA 在特定任务上的表现。

hf-papers 閱讀原文

Practical VLA 2026-05-27

Afford-VLA: Action-Aligned Visual Planning via Internalized Affordance

Runze Wang et al. · 通过内部化 affordance 机制增强 VLA 的空间推理能力，解决复杂场景中交互点定位难题。引入动作对齐的视觉规划模块，显著提升操作精度。

cs.RO 閱讀原文

Practical VLA 2026-05-27

MuJoCoUni:Persistent Batched Runtime Primitives for MuJoCo

Yufei Jia et al. · 为 MuJoCo 提供持久化批量运行时原语，支持在线机器人学习和批量物理评估。显著加速仿真环境下的 VLA 训练与评估流程，工程价值高。

cs.RO 閱讀原文

Practical VLA 2026-05-27

HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos

Zhi (Leo) et al. · 利用少量人类第一人称视频实现零样本机器人技能迁移，克服视觉外观和运动学差异。提供跨形态技能转移的新路径，对 VLA 数据扩展有重要启示。

cs.RO 閱讀原文

Practical VLA 2026-05-27

X-DiffVLA: X-Embodied Diffusion Action Heads for Vision-Language-Action Models

Boyu Li et al. · 提出跨实体扩散动作头 X-DiffVLA，解决多实体数据统一策略学习的挑战。无需针对特定实体微调即可实现跨平台迁移，增强 VLA 通用性。

cs.RO 閱讀原文

Practical VLA 2026-05-27

TapSampling: Inference-Time Sampling with a Task-Progress-Understanding Verifier for Robotic Manipulation

Sizhe Zhao et al. · 提出推理时采样策略 TapSampling，结合任务进度理解验证器提升生成式模型性能。为 VLA 推理阶段提供新的优化手段，无需重新训练即可改善结果。

cs.RO 閱讀原文

Practical VLA 2026-05-27

OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation

Xinzhe Chen et al. · 通过 SE(3) 轨迹预测实现观测-动作空间对齐，增强 VLA 和世界动作模型的空间表征。解决现有模型空间特征缺失问题，提升操作几何准确性。

cs.RO 閱讀原文

Practical VLA 2026-05-27

RoboManipBaselines: A Unified Framework for Imitation Learning in Robotic Manipulation across Real and Simulation Environments

Masaki Murooka et al. · 发布 RoboManipBaselines 开源框架，统一仿真与真机环境下的模仿学习流程。涵盖数据收集到部署全链路，极大降低 VLA 研究门槛，本周即可复用。

cs.RO 閱讀原文

Practical VLA 2026-05-27

INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models

Ulas Berk Karli et al. · 提出 INSIGHT 框架，通过推理时序列自省预测失败并触发人工辅助。增强 VLA 的安全性与人机协作能力，提供可集成的故障检测模块。

cs.RO 閱讀原文

Practical VLA 2026-05-27

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Weikang Qiu et al. · 通过静态-动态解耦提升长视界 VLA 的效率，分离背景信息与动态变化部分。优化计算资源分配，显著延长有效规划 horizon，具备明确工程价值。

cs.RO 閱讀原文

Practical VLA 2026-05-27

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

Hanzhen Wang et al. · 提出动作感知自推测剪枝 SpecPrune-VLA，加速 VLA 推理过程。针对计算密集型模型提供有效的推断优化方案，可直接应用于现有 VLA 部署以提升速度。

cs.RO 閱讀原文

Practical VLA [LIBERO Team] 2026-05-27

LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization

Xueyang Zhou et al. · 发布 LIBERO-PRO 基准，修正原有设置导致的性能膨胀问题，推动更公平的 VLA 评估。提供去记忆化的测试套件，对社区评估标准具有即时实用价值。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-27

RoboHitch: Learning Visual Affordance from Disordered Keypoints for Hitch Knots Tying

Jiahui Zuo et al. · 针对打结任务提出从无序关键点学习视觉 affordance 的方法，解决变形线性物体操控难点。虽具创新性但局限于特定任务，缺乏通用 VLA 架构贡献。

cs.RO 閱讀原文

Background VLA 2026-05-27

Smoother Action Chunking Flow Policy via Prior-Corrected Orthogonal Trust-Region Guidance

Kai Fang et al. · 改进流匹配策略的动作分块连续性，通过先验校正正交信任域引导消除边界不连续。属于控制算法优化，非 VLA 核心架构或训练范式创新。

cs.RO 閱讀原文

Background VLA 2026-05-27

Sum of Costs Diffusion with Dynamic Guidance for Motion Planning

Aysu Aylin Kaplan et al. · 提出基于成本总和扩散的动态引导运动规划方法，旨在提高泛化性。主要关注路径规划而非端到端 VLA 策略学习，与核心 VLA 研究距离较远。

cs.RO 閱讀原文

Background VLA 2026-05-27

Learning High-Frequency Continuous Action Chunks in Latent Space

Kunyun Wang et al. · 探索潜在空间中高频连续动作分块的学习，以弥补中等频率下的时间一致性不足。侧重于动作表示细节优化，未涉及 VLA 整体架构或数据效率突破。

cs.RO 閱讀原文

Background VLA 2026-05-27

InvariantCloud: A Globally Invariant, Uniquely Indexed Point Cloud Framework for Robust 6-DoF Tactile Pose Tracking

Pengfei Ye et al. · 构建全局不变且唯一索引的点云框架，用于鲁棒的 6-DoF 触觉姿态跟踪。聚焦触觉感知底层技术，虽对灵巧操作重要但未直接整合进 VLA 决策闭环。

cs.RO 閱讀原文

Background VLA 2026-05-27

RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation

Wenhui Chu · 通过表示引导适配将 SAM 等基础模型应用于机器人视觉，解决 Transformer 层间表示偏移问题。属于感知模块优化，未直接触及 VLA 动作生成核心。

cs.RO 閱讀原文

Background VLA 2026-05-27

Compliant Non-Prehensile Pushing Manipulation

Francesco Cufino et al. · 研究合规机器人在人群环境中进行非抓取推挤操作的安全性。侧重传统控制与安全约束，缺乏 VLA 相关的语言指令跟随或泛化能力展示。

cs.RO 閱讀原文

Background VLA 2026-05-27

Beyond Predefined Learning Objects: A Thinking-Learning Interaction Model for Up-to-Date Autonomous Robot Learning

Hong Su · 提出思维-学习交互模型以应对开放环境中非预定义对象的学习。概念新颖但摘要缺乏具体 VLA 架构细节及量化实验支撑，偏向理论探讨。 [💧灌水]

cs.RO 閱讀原文

Background VLA 2026-05-27

Understanding the Impact of Geometric Foundation Models on Vision-Language-Action Models

Yurou Yang et al. · 分析几何基础模型（如 VGGT）对 VLA 性能的影响，揭示 3D 重建与 VLA 结合的潜力。属于消融分析与洞察报告，未提出新架构或显著 SOTA 提升。

cs.RO 閱讀原文

Background VLA 2026-05-27

AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models

Cuong Huynh et al. · 利用多模态语言模型实现零样本 3D 点云视觉定位，解决自然语言描述的对象局部化问题。侧重感知与 grounding，未直接关联 VLA 的动作执行策略。

cs.RO 閱讀原文

Background VLA 2026-05-27

NeuralTouch: Neural Descriptors for Precise Sim-to-Real Tactile Robot Control

Yijiong Lin et al. · 利用神经描述场生成精确抓取姿态，解决视触对齐难题以实现 Sim-to-Real 转移。聚焦触觉控制底层，未体现 VLA 的语言指令遵循或多任务泛化特性。

cs.RO 閱讀原文

Background VLA 2026-05-27

Language Movement Primitives: Grounding Language Models in Robot Motion

Yinlong Dai et al. · 探索将语言模型扎根于机器人运动的基元方法，旨在从自然语言指令执行新颖任务。侧重运动基元与语言的对齐，非端到端 VLA 架构的直接改进。

cs.RO 閱讀原文

Background VLA 2026-05-27

Few-Shot Neural Differentiable Simulator: Real-to-Sim Rigid-Contact Modeling

Zhenhao Huang et al. · 构建少样本神经可微模拟器，解决刚体接触建模中真实到仿真的鸿沟。虽提升仿真保真度，但主要贡献在物理模拟层面，非 VLA 策略学习核心。

cs.RO 閱讀原文

Background VLA 2026-05-27

VILAS: A VLA-Integrated Low-cost Architecture with Soft Grasping for Robotic Manipulation

Zijian An et al. · 介绍 VILAS 低成本模块化机器人平台，集成软抓取与 VLA 策略部署。属于硬件系统搭建，方法论创新有限，主要服务于特定场景的应用落地。

cs.RO 閱讀原文

Background VLA 2026-05-27

OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation

Yunyang Mo et al. · 利用在线人类偏好指导 RL 探索，解决真实世界部署中的低效与安全问题。侧重 RL 奖励塑造与人机交互，未直接针对 VLA 架构本身进行改进。

cs.RO 閱讀原文

Background VLA 2026-05-27

Action with Visual Primitives

Weilong Guo et al. · 尝试用视觉基元替代单一前向传递来映射语言与视觉到动作，探索中间表示。概念初步，摘要未展示充分对比实验或明确的 SOTA 超越证据。 [💧灌水]

cs.RO 閱讀原文

Background VLA 2026-05-27

Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses

Xiao Li et al. · 综述具身智能的安全风险、攻击与防御措施，涵盖交通等领域。作为综述文章提供宏观视角，但不包含具体的 VLA 技术突破或可立即复用的新方法。

cs.RO 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-27