2026-05-29

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

GEM: Generative Supervision Helps Embodied Intelligence 提出利用生成式监督信号增强 VLA 的语义-动作对齐，解决传统文本预训练与底层控制间的鸿沟。为提升 VLA 在复杂指令下的泛化能力提供了新的训练范式思路。 HF-PAPER
A Factory-Floor Deployment Case Study of VLA Pipelines for Industrial Packaging Task: Workflow, Failures, and Lessons Brian Zhu et al. · 详细记录 VLA 在工业包装场景的真实部署流程、故障模式及改进经验。为工程团队提供宝贵的落地避坑指南和系统架构参考，具有极高的实操价值。 CS.RO
GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation Boxiang Qiu et al. · 基于 Genie Envisioner 构建闭环视频世界模拟器 GE-Sim 2.0，旨在通过大规模数据重训提升仿真真实性。属于仿真器/世界模型方向，虽重要但非直接 VLA 算法突破。 CS.RO
Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation Hongyu Ding et al. · 针对具身导航任务，提出统一的语言-视觉-动作映射框架。侧重于移动机器人的导航而非灵巧操作，属于 VLA 相邻领域，应用路径相对特定。 CS.RO
HumanoidMimicGen: Data Generation for Loco-Manipulation via Whole-Body Planning Kevin Lin et al. · 提出一种基于全身规划的人形机器人 loco-manipulation 数据生成方法，缓解真机演示数据稀缺问题。为人形机器人模仿学习提供了高效的数据合成工具，可直接复用。 CS.RO
Colosseum V2: Benchmarking Generalization for Vision Language Action Models Jeremy Morgan et al. · 发布 Colosseum V2 基准测试，旨在更严格地评估 VLA 模型的泛化能力。作为数据集/基准更新，对评估现有 SOTA 有价值，但本身无新算法贡献。 CS.RO
Tabero: Learning Gentle Manipulation with Closed-Loop Force Feedback from Vision, Touch, and Language Qiwei Wu et al. · 引入触觉和力反馈闭环机制，解决 VLA 在轻柔操作中对多模态触觉利用不足的问题。填补了触觉 VLA 方向空白，提供了具体的多模态融合方案。 CS.RO
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal Junlin Wang · 提出频域引导的动作扩散策略，通过在子频率流形上遍历来抑制人类演示中的高频噪声。为 Diffusion Policy 等生成式策略提供了有效的去噪优化手段。 CS.RO
SANTS: A State-Adaptive Scheduler for World Action Models Yirui Sun et al. · 针对像素级世界动作模型（WAMs），提出状态自适应调度器以优化去噪过程中的动作条件。属于 WAM 内部机制改进，创新点较为具体但适用范围有限。 CS.RO
Natural Functional Gradients for Smooth Trajectory Optimization Kisang Park et al. · 提出基于自然函数梯度的轨迹优化方法，解决拥挤环境下的平滑运动生成问题。属于传统控制/优化范畴，未结合 VLA 大模型特性。 CS.RO
ProgVLA: Progress-Aware Robot Manipulation Skill Learning Seungsu Kim et al. · 设计紧凑的 ProgVLA 模型，通过进度感知机制高效处理长序列多模态输入，适应资源受限场景。为边缘端 VLA 部署提供了轻量化架构参考。 CS.RO
Mag-VLA: Vision-Language-Action Model for Bimanual Magnetically Actuated Microrobot Manipulation Yongchen Wang et al. · 将 VLA 应用于磁驱动微纳机器人双臂操作，探索特殊物理尺度下的控制。应用场景极为垂直小众，通用性较低。 CS.RO

2026-05-29

VLA 研究日報VLA 研究日报

13 篇 13 篇共 26 篇

🔧 技術技术

Practical VLA 2026-05-29

GEM: Generative Supervision Helps Embodied Intelligence

提出利用生成式监督信号增强 VLA 的语义-动作对齐，解决传统文本预训练与底层控制间的鸿沟。为提升 VLA 在复杂指令下的泛化能力提供了新的训练范式思路。

hf-papers 閱讀原文

Practical VLA 2026-05-29

A Factory-Floor Deployment Case Study of VLA Pipelines for Industrial Packaging Task: Workflow, Failures, and Lessons

Brian Zhu et al. · 详细记录 VLA 在工业包装场景的真实部署流程、故障模式及改进经验。为工程团队提供宝贵的落地避坑指南和系统架构参考，具有极高的实操价值。

cs.RO 閱讀原文

Practical VLA 2026-05-29

HumanoidMimicGen: Data Generation for Loco-Manipulation via Whole-Body Planning

Kevin Lin et al. · 提出一种基于全身规划的人形机器人 loco-manipulation 数据生成方法，缓解真机演示数据稀缺问题。为人形机器人模仿学习提供了高效的数据合成工具，可直接复用。

cs.RO 閱讀原文

Practical VLA 2026-05-29

Tabero: Learning Gentle Manipulation with Closed-Loop Force Feedback from Vision, Touch, and Language

Qiwei Wu et al. · 引入触觉和力反馈闭环机制，解决 VLA 在轻柔操作中对多模态触觉利用不足的问题。填补了触觉 VLA 方向空白，提供了具体的多模态融合方案。

cs.RO 閱讀原文

Practical VLA 2026-05-29

Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal

Junlin Wang · 提出频域引导的动作扩散策略，通过在子频率流形上遍历来抑制人类演示中的高频噪声。为 Diffusion Policy 等生成式策略提供了有效的去噪优化手段。

cs.RO 閱讀原文

Practical VLA 2026-05-29

ProgVLA: Progress-Aware Robot Manipulation Skill Learning

Seungsu Kim et al. · 设计紧凑的 ProgVLA 模型，通过进度感知机制高效处理长序列多模态输入，适应资源受限场景。为边缘端 VLA 部署提供了轻量化架构参考。

cs.RO 閱讀原文

Practical VLA [Peking University] 2026-05-29

What Frozen VLAs Already Know About Success: A Probing Study of Value-Like Structure in Foundation Robot Policies

Jiachen Zhang (Peking University et al. · 通过探针实验揭示冻结 VLA 策略中隐含的价值/成功估计结构，无需额外训练即可用于指导决策。为理解 VLA 内部表征和利用其潜在知识提供了新视角。

cs.RO 閱讀原文

Practical VLA 2026-05-29

PrimitiveVLA: Learning Reusable Motion Primitives for Efficient and Generalizable Robotic Manipulation

Yutai Li et al. · 提出 PrimitiveVLA，通过学习可复用的运动原语来解决直接指令微调的数据效率低和泛化差问题。提供了一种结构化 VLA 学习的新路径，有助于提升样本效率。

cs.RO 閱讀原文

Practical VLA 2026-05-29

How VLAs Fail Differently: Black-Box Action Monitoring Reveals Architecture-Specific Failure Signatures

Krishnam Gupta · 通过黑盒动作监控发现不同 VLA 架构（VQ-BeT, Diffusion, ACT）具有特定的失败特征。为诊断和优化 VLA 模型提供了实用的分析工具和洞见。

cs.RO 閱讀原文

Practical VLA 2026-05-29

Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models

Haoyun Liu et al. · 提出神经隐式动作场，将离散动作预测转化为连续函数建模，以更符合物理运动的连续性。为 VLA 动作头设计提供了新的数学框架和实现思路。

cs.RO 閱讀原文

Practical VLA 2026-05-29

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

Wei Li et al. · 提出 CogVLA，通过指令驱动的路由和稀疏化机制降低 VLA 计算开销，实现认知对齐。为提升 VLA 推理效率和可扩展性提供了有效的工程优化方案。

cs.RO 閱讀原文

Practical VLA 2026-05-29

VLA-Hijack: A Transferable Patch Attack against Vision-Language-Action Models via Visual Proprioception Hijacking

Jiyuan Fu et al. · 揭示 VLA 模型易受视觉本体感觉劫持攻击的漏洞，并提出可迁移的补丁攻击方法。提高了社区对 VLA 安全性的认识，有助于开发防御机制。

cs.CV 閱讀原文

Practical VLA 2026-05-29

{\Omega}-QVLA: Robust Quantization for Vision-Language-Action Models via Composite Rotation and Per-step Scaling

Xinyu Wang et al. · 提出 Ω-QVLA，通过复合旋转和每步缩放实现 VLA 模型的鲁棒量化。显著降低模型部署成本，为边缘设备运行大型 VLA 提供了关键技术支撑。

cs.CV 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-29

GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation

Boxiang Qiu et al. · 基于 Genie Envisioner 构建闭环视频世界模拟器 GE-Sim 2.0，旨在通过大规模数据重训提升仿真真实性。属于仿真器/世界模型方向，虽重要但非直接 VLA 算法突破。

cs.RO 閱讀原文

Background VLA 2026-05-29

Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation

Hongyu Ding et al. · 针对具身导航任务，提出统一的语言-视觉-动作映射框架。侧重于移动机器人的导航而非灵巧操作，属于 VLA 相邻领域，应用路径相对特定。

cs.RO 閱讀原文

Background VLA 2026-05-29

Colosseum V2: Benchmarking Generalization for Vision Language Action Models

Jeremy Morgan et al. · 发布 Colosseum V2 基准测试，旨在更严格地评估 VLA 模型的泛化能力。作为数据集/基准更新，对评估现有 SOTA 有价值，但本身无新算法贡献。

cs.RO 閱讀原文

Background VLA 2026-05-29

SANTS: A State-Adaptive Scheduler for World Action Models

Yirui Sun et al. · 针对像素级世界动作模型（WAMs），提出状态自适应调度器以优化去噪过程中的动作条件。属于 WAM 内部机制改进，创新点较为具体但适用范围有限。

cs.RO 閱讀原文

Background VLA 2026-05-29

Natural Functional Gradients for Smooth Trajectory Optimization

Kisang Park et al. · 提出基于自然函数梯度的轨迹优化方法，解决拥挤环境下的平滑运动生成问题。属于传统控制/优化范畴，未结合 VLA 大模型特性。

cs.RO 閱讀原文

Background VLA 2026-05-29

Mag-VLA: Vision-Language-Action Model for Bimanual Magnetically Actuated Microrobot Manipulation

Yongchen Wang et al. · 将 VLA 应用于磁驱动微纳机器人双臂操作，探索特殊物理尺度下的控制。应用场景极为垂直小众，通用性较低。

cs.RO 閱讀原文

Background VLA 2026-05-29

Imitation Learning for Robot Assistance in Open Surgery: A Multi-Policy Evaluation on Suture Following

Xucheng Wang et al. · 评估多种模仿学习策略在开放手术缝合辅助任务中的表现。属于医疗机器人特定应用，缺乏通用 VLA 架构或理论创新。

cs.RO 閱讀原文

Background VLA 2026-05-29

MVP-LAM: Learning Action-Centric Latent Action via Cross-Viewpoint Reconstruction

Jung Min Lee et al. · 通过跨视角重建学习以动作为中心的潜在表示，用于 VLA 预训练的伪标签生成。侧重于表征学习方法，对 VLA 性能提升的具体贡献需进一步验证。

cs.RO 閱讀原文

Background VLA 2026-05-29

Rectified Schr\"odinger Bridge Matching for Few-Step Visual Navigation

Wuyang Luan et al. · arXiv:2604.05673v3 Announce Type: replace Abstract: Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into continuous, long-horizon action trajectories. While generative policies based on diffusion models and Schr\"odinger Bridges (SB) effectively capture multimodal action distributions, they require dozens of integration steps due to high-variance stochastic transport, posing a critical barrier for real-time robo

cs.RO 閱讀原文

Background VLA 2026-05-29