VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-26

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models Ruofan Jin et al. · 提出在线适应机制，解决VLA模型在新环境中的泛化问题。提供可复用的自适应训练策略，适用于LIBERO等基准测试。 CS.RO
$\pi_0$-EqM: Equilibrium Matching for Closed-Loop Vision-Language-Action Control [π] Huanming Liu et al. · 引入平衡匹配（Equilibrium Matching）优化闭环控制稳定性，改进流匹配解码器。为VLA动作生成提供新的稳定训练范式，可直接应用于现有架构。 CS.RO
Sparse Compositional Flow Matching by geometric assembly from motion primitives Yan Tang et al. · 通过运动基元的几何组装实现稀疏组合流匹配，提升轨迹生成效率。方法新颖但缺乏具体机器人硬件实验验证，暂归为值得了解。 CS.RO
Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation Chengyu Deng et al. · 利用语义结构的MoE架构解决扩散策略的可扩展性瓶颈。提供轻量化且具备泛化能力的模型结构，适合资源受限场景部署。 CS.RO
TactileReflex: Noise-Statistics-Driven Vision-Tactile Reflex Control for Force-Sensitive Manipulation Ziyan Feng et al. · 针对易碎物体操作，提出基于噪声统计的视触觉反射控制框架。填补触觉VLA在力控精细操作领域的空白，具有明确的应用价值。 CS.RO
Instrumentation for Imitation Learning: Enhancing Training Datasets for Clothes Hanger Insertion Remko Proesmans et al. · 探讨通过对象传感器集成增强模仿学习数据集的方法，以衣架插入为例。属于数据工程方向，对VLA数据收集有启发但非核心算法突破。 CS.RO
Point Tracking Improves World Action Models Jiarui Guan et al. · 引入点跟踪技术解耦动态与视觉干扰，提升世界-动作模型的鲁棒性。为VLA中的状态表示提供低成本改进方案，易于集成到现有pipeline。 CS.RO
GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation Kaichen Zhou et al. · 结合几何增强的视频世界模型，改善长期预测的物理一致性。虽涉及机器人操作，但侧重世界模型生成质量，对直接动作控制的贡献需进一步验证。 CS.RO
SCRIPT: Scalable Diffusion Policy with Multi-stage Training for Language-driven Physics-Based Humanoid Control Jingyan Zhang et al. · 提出多阶段训练的扩散策略，解决人形机器人语言控制的物理可行性问题。为人形机器人VLA提供可扩展的训练流程，具有较高复用价值。 CS.RO
IntentionNav: A Benchmark for Intent-Driven Object Navigation from Implicit Human Instruction Lin Qian et al. · 发布意图驱动的对象导航基准，处理隐式人类指令。作为新Benchmark值得关注，但本身不提供新的VLA架构或算法。 CS.RO
GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation Ying Chai et al. · 提出高斯动作场作为动态世界建模的4D表示。方法创新但偏向表征学习，需更多证据表明其能直接提升端到端VLA策略性能。 CS.RO
USIM and U0: A Vision-Language-Action Dataset and Model for General Underwater Robots Junwen Gu et al. · 发布水下机器人VLA数据集USIM及模型U0，填补水下操作领域空白。提供稀缺的多模态水下数据，对拓展VLA应用场景具有重要价值。 CS.RO

2026-05-26

VLA 研究日報VLA 研究日报

10 篇 11 篇共 21 篇

🔧 技術技术

Practical VLA 2026-05-26

Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models

Ruofan Jin et al. · 提出在线适应机制，解决VLA模型在新环境中的泛化问题。提供可复用的自适应训练策略，适用于LIBERO等基准测试。

cs.RO 閱讀原文

Practical VLA [π] 2026-05-26

$\pi_0$-EqM: Equilibrium Matching for Closed-Loop Vision-Language-Action Control

Huanming Liu et al. · 引入平衡匹配（Equilibrium Matching）优化闭环控制稳定性，改进流匹配解码器。为VLA动作生成提供新的稳定训练范式，可直接应用于现有架构。

cs.RO 閱讀原文

Practical VLA 2026-05-26

Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation

Chengyu Deng et al. · 利用语义结构的MoE架构解决扩散策略的可扩展性瓶颈。提供轻量化且具备泛化能力的模型结构，适合资源受限场景部署。

cs.RO 閱讀原文

Practical VLA 2026-05-26

TactileReflex: Noise-Statistics-Driven Vision-Tactile Reflex Control for Force-Sensitive Manipulation

Ziyan Feng et al. · 针对易碎物体操作，提出基于噪声统计的视触觉反射控制框架。填补触觉VLA在力控精细操作领域的空白，具有明确的应用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-26

Point Tracking Improves World Action Models

Jiarui Guan et al. · 引入点跟踪技术解耦动态与视觉干扰，提升世界-动作模型的鲁棒性。为VLA中的状态表示提供低成本改进方案，易于集成到现有pipeline。

cs.RO 閱讀原文

Practical VLA 2026-05-26

SCRIPT: Scalable Diffusion Policy with Multi-stage Training for Language-driven Physics-Based Humanoid Control

Jingyan Zhang et al. · 提出多阶段训练的扩散策略，解决人形机器人语言控制的物理可行性问题。为人形机器人VLA提供可扩展的训练流程，具有较高复用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-26

USIM and U0: A Vision-Language-Action Dataset and Model for General Underwater Robots

Junwen Gu et al. · 发布水下机器人VLA数据集USIM及模型U0，填补水下操作领域空白。提供稀缺的多模态水下数据，对拓展VLA应用场景具有重要价值。

cs.RO 閱讀原文

Practical VLA 2026-05-26

V-VLAPS: Value-Guided Planning for Vision-Language-Action Models

Ke Ren et al. · 引入价值引导规划以增强VLA在分布外任务中的长程规划能力。提供即插即用的规划模块，可有效缓解VLA的短视问题。

cs.RO 閱讀原文

Practical VLA 2026-05-26

VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation

Changhua Xu et al. · 提出价值引导的动作块选择机制，优化少样本VLA适应效果。为小数据场景下的VLA微调提供高效解决方案，具备工程实用性。

cs.AI 閱讀原文

Practical VLA 2026-05-26

Direct Dynamic Retargeting for Humanoid Imitation Learning from Videos

Constant Roux et al. · 提出直接从视频进行动力学重定向的方法，解决人形机器人形态差异问题。为人形机器人VLA的数据预处理提供关键工具。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-26

Sparse Compositional Flow Matching by geometric assembly from motion primitives

Yan Tang et al. · 通过运动基元的几何组装实现稀疏组合流匹配，提升轨迹生成效率。方法新颖但缺乏具体机器人硬件实验验证，暂归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-05-26

Instrumentation for Imitation Learning: Enhancing Training Datasets for Clothes Hanger Insertion

Remko Proesmans et al. · 探讨通过对象传感器集成增强模仿学习数据集的方法，以衣架插入为例。属于数据工程方向，对VLA数据收集有启发但非核心算法突破。

cs.RO 閱讀原文

Background VLA 2026-05-26

GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

Kaichen Zhou et al. · 结合几何增强的视频世界模型，改善长期预测的物理一致性。虽涉及机器人操作，但侧重世界模型生成质量，对直接动作控制的贡献需进一步验证。

cs.RO 閱讀原文

Background VLA 2026-05-26

IntentionNav: A Benchmark for Intent-Driven Object Navigation from Implicit Human Instruction

Lin Qian et al. · 发布意图驱动的对象导航基准，处理隐式人类指令。作为新Benchmark值得关注，但本身不提供新的VLA架构或算法。

cs.RO 閱讀原文

Background VLA 2026-05-26

GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation

Ying Chai et al. · 提出高斯动作场作为动态世界建模的4D表示。方法创新但偏向表征学习，需更多证据表明其能直接提升端到端VLA策略性能。

cs.RO 閱讀原文

Background VLA 2026-05-26

LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipulation

Youngjin Hong et al. · 构建语言-动作循环以实现自我改进的操作策略。概念有趣但摘要未展示显著优于SOTA的实验结果，暂归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-05-26

ComPose: When to Trust Hands for Object Pose Tracking

Jisu Shin et al. · 研究手部遮挡下的物体姿态跟踪信任机制。属于感知子任务，虽服务于具身AI，但未直接涉及VLA决策或控制架构。

cs.CV 閱讀原文

Background VLA 2026-05-26

Bioinspired ionic thermoreceptors with anisotropic architecture for thermotactile perception in robots

Xuan Cai et al. · 开发仿生离子热感受器用于机器人热触觉感知。属硬件传感器创新，虽与触觉VLA相关，但非算法或系统级进展。

Science-Advances 閱讀原文

Background VLA 2026-05-26

Robotic Strawberry Harvesting with Robust Vision and Deep Reinforcement Learning based Sim-to-Real Control

Al Bashir et al. · 结合鲁棒视觉与Sim-to-Real RL实现草莓采摘。属特定农业应用案例，缺乏通用VLA方法论贡献，仅作为应用参考。

cs.RO 閱讀原文

Background VLA 2026-05-26

World Machine: Towards Generative World Modeling for Time-Series

Elton Cardoso do Nascimento et al. · 提出面向时间序列的生成式世界建模架构。方法通用性强，但缺乏在机器人操作中的具体验证，暂归为值得了解。

cs.LG 閱讀原文

Background VLA 2026-05-26

Next-Latent Prediction Transformers Learn Compact World Models

Jayden Teoh et al. · 探索Transformer通过下一潜在预测学习紧凑世界模型的能力。属基础模型研究，对VLA的潜在空间压缩有启发但间接。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-26