VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-14

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception 提出利用立体视觉增强单目VLA的深度感知能力。属于感知模块改进，非核心架构或训练范式创新，且未提及在多个主流Benchmark上的SOTA超越。 HF-PAPER
CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models 针对VLA微调难问题，提出在参数空间学习可迁移的能力向量（Capability Vectors）。提供了一种新的参数高效微调思路，有助于降低适配成本，具有明确的工程复用价值。 HF-PAPER
ECHO: Continuous Hierarchical Memory for Vision-Language-Action Models Yanbin Hu et al. · 引入连续分层记忆机制解决VLA长程任务中的信息丢失问题。相比线性存储，该方法提供了结构化的先验，对提升长视界操作性能有实质贡献，适合关注长期依赖的研究者。 CS.RO
ForceFlow: Learning to Feel and Act via Contact-Driven Flow Matching Shuoheng Zhang et al. · 结合触觉反馈与流匹配（Flow Matching）解决接触丰富场景下的操作难题。填补了触觉VLA方向的空白，为灵巧操作提供了新的建模视角，具有较高的技术参考价值。 CS.RO
SEVO: Semantic-Enhanced Virtual Observation for Robust VLA Manipulation via Active Illumination and Data-Centric Collection Tianchonghui Fang et al. · 通过主动照明和数据中心方法增强VLA鲁棒性。侧重于数据收集和仿真优化策略，虽实用但缺乏算法层面的根本性创新，属于工程优化类工作。 CS.RO
Forecast-aware Gaussian Splatting for Predictive 3D Representation in Language-Guided Pick-and-Place Manipulation Kaixin Jia et al. · 将高斯泼溅用于预测性3D表示以辅助语言引导的操作。主要贡献在于表征学习而非VLA控制策略本身，与核心VLA架构关联度较弱，归为值得了解。 CS.RO
Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models Yanyan Zhang et al. · 提出无需训练的动态感知校正方法，解决VLA单帧观察导致的时序盲区问题。作为一种即插即用的推理后处理或中间层修正方案，本周即可复用以提升现有模型表现。 CS.RO
Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation Hao Wang et al. · 提出基于折扣活跃度的离线策略评估方法。虽然对VLA开发流程重要，但属于评估指标/方法论创新，不直接改变VLA模型架构或训练效果，故归为📖。 CS.RO
RIO: Flexible Real-Time Robot I/O for Cross-Embodiment Robot Learning Pablo Ortega-Kral et al. · 提供跨实体机器人学习的实时I/O框架。解决了多平台部署的工程痛点，代码/工具链具有极高的本周复用价值，是构建通用VLA系统的基础设施级贡献。 CS.RO
Nautilus: From One Prompt to Plug-and-Play Robot Learning Yufeng Jin et al. · 旨在简化机器人学习配置流程。侧重于工程易用性和系统集成，虽有价值但缺乏算法层面的实质性创新，属于工具类论文。 CS.RO
DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies Xianzhe Fan et al. · 提出测试时“做梦”机制，在关键阶段通过想象未来轨迹来避免失败。这是一种新颖的推理时增强策略，可直接应用于现有VLA以提升安全性，具有明确的应用路径。 CS.RO
NavOL: Navigation Policy with Online Imitation Learning Xiaofei Wei et al. · 聚焦于导航策略的在线模仿学习。虽然涉及移动操作，但未明确结合VLA的大模型特性或语言指令理解，更偏向传统移动机器人控制，故归为📖。 CS.RO

2026-05-14

VLA 研究日報VLA 研究日报

17 篇 11 篇共 28 篇

🔧 技術技术

Practical VLA 2026-05-14

CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

针对VLA微调难问题，提出在参数空间学习可迁移的能力向量（Capability Vectors）。提供了一种新的参数高效微调思路，有助于降低适配成本，具有明确的工程复用价值。

hf-papers 閱讀原文

Practical VLA 2026-05-14

ECHO: Continuous Hierarchical Memory for Vision-Language-Action Models

Yanbin Hu et al. · 引入连续分层记忆机制解决VLA长程任务中的信息丢失问题。相比线性存储，该方法提供了结构化的先验，对提升长视界操作性能有实质贡献，适合关注长期依赖的研究者。

cs.RO 閱讀原文

Practical VLA 2026-05-14

ForceFlow: Learning to Feel and Act via Contact-Driven Flow Matching

Shuoheng Zhang et al. · 结合触觉反馈与流匹配（Flow Matching）解决接触丰富场景下的操作难题。填补了触觉VLA方向的空白，为灵巧操作提供了新的建模视角，具有较高的技术参考价值。

cs.RO 閱讀原文

Practical VLA 2026-05-14

Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

Yanyan Zhang et al. · 提出无需训练的动态感知校正方法，解决VLA单帧观察导致的时序盲区问题。作为一种即插即用的推理后处理或中间层修正方案，本周即可复用以提升现有模型表现。

cs.RO 閱讀原文

Practical VLA 2026-05-14

RIO: Flexible Real-Time Robot I/O for Cross-Embodiment Robot Learning

Pablo Ortega-Kral et al. · 提供跨实体机器人学习的实时I/O框架。解决了多平台部署的工程痛点，代码/工具链具有极高的本周复用价值，是构建通用VLA系统的基础设施级贡献。

cs.RO 閱讀原文

Practical VLA 2026-05-14

DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies

Xianzhe Fan et al. · 提出测试时“做梦”机制，在关键阶段通过想象未来轨迹来避免失败。这是一种新颖的推理时增强策略，可直接应用于现有VLA以提升安全性，具有明确的应用路径。

cs.RO 閱讀原文

Practical VLA 2026-05-14

See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model

Yixu Feng et al. · 提出可微网格采样剪枝以降低VLA计算成本并提升泛化。直接针对VLA部署瓶颈（算力/速度），提供了具体的模型压缩/加速方案，具备工程落地价值。

cs.RO 閱讀原文

Practical VLA 2026-05-14

Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete

Joonha Park et al. · 提出在指令未完成前即开始行动的预判机制，显著降低延迟。这是一种创新的推理范式，能直接提升VLA系统的响应速度，具有明确的性能优势和复用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-14

TMRL: Diffusion Timestep-Modulated Pretraining Enables Exploration for Efficient Policy Finetuning

Matthew M. Hong et al. · 提出扩散时间步调制预训练以改善RL微调时的探索效率。解决了BC预训练导致动作分布狭窄的核心痛点，为VLA的RL精调提供了有效的技术路径。

cs.RO 閱讀原文

Practical VLA 2026-05-14

GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization

Xiaosong Jia et al. · 通过即插即用的动作注意力专业化来指定任务相关因素。提供了一种可解释且灵活的VLA控制增强模块，易于集成到现有架构中，具有较好的工程实用性。

cs.RO 閱讀原文

Practical VLA 2026-05-14

Action Hallucination in Generative Vision-Language-Action Models

Harold Soh et al. · 深入分析VLA中的动作幻觉现象。揭示了生成式VLA的核心缺陷，对于理解模型局限性和改进训练目标具有重要指导意义，属于高价值的诊断性研究。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-14

StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception

提出利用立体视觉增强单目VLA的深度感知能力。属于感知模块改进，非核心架构或训练范式创新，且未提及在多个主流Benchmark上的SOTA超越。

hf-papers 閱讀原文

Background VLA 2026-05-14

SEVO: Semantic-Enhanced Virtual Observation for Robust VLA Manipulation via Active Illumination and Data-Centric Collection

Tianchonghui Fang et al. · 通过主动照明和数据中心方法增强VLA鲁棒性。侧重于数据收集和仿真优化策略，虽实用但缺乏算法层面的根本性创新，属于工程优化类工作。

cs.RO 閱讀原文

Background VLA 2026-05-14

Forecast-aware Gaussian Splatting for Predictive 3D Representation in Language-Guided Pick-and-Place Manipulation

Kaixin Jia et al. · 将高斯泼溅用于预测性3D表示以辅助语言引导的操作。主要贡献在于表征学习而非VLA控制策略本身，与核心VLA架构关联度较弱，归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-05-14

Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation

Hao Wang et al. · 提出基于折扣活跃度的离线策略评估方法。虽然对VLA开发流程重要，但属于评估指标/方法论创新，不直接改变VLA模型架构或训练效果，故归为📖。

cs.RO 閱讀原文

Background VLA 2026-05-14

Nautilus: From One Prompt to Plug-and-Play Robot Learning

Yufeng Jin et al. · 旨在简化机器人学习配置流程。侧重于工程易用性和系统集成，虽有价值但缺乏算法层面的实质性创新，属于工具类论文。

cs.RO 閱讀原文

Background VLA 2026-05-14

NavOL: Navigation Policy with Online Imitation Learning

Xiaofei Wei et al. · 聚焦于导航策略的在线模仿学习。虽然涉及移动操作，但未明确结合VLA的大模型特性或语言指令理解，更偏向传统移动机器人控制，故归为📖。

cs.RO 閱讀原文

Background VLA 2026-05-14

Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation

Junjin Xiao et al. · 利用多视图扩散模型生成潜在新视图以解决深度歧义。属于感知辅助手段，未触及VLA核心决策机制，且主要依赖预训练模型，创新度有限。

cs.RO 閱讀原文

Background VLA 2026-05-14

From Reaction to Anticipation: Proactive Failure Recovery through Agentic Task Graph for Robotic Manipulation

Sheng Xu et al. · 通过代理任务图实现前瞻性故障恢复。引入了Agentic概念，但更多是高层规划逻辑，与底层VLA视觉-动作映射的直接关联较弱，视为相邻方向。

cs.RO 閱讀原文

Background VLA 2026-05-14

World Action Models: The Next Frontier in Embodied AI

Siyin Wang et al. · 探讨世界模型在VLA中的应用前景。标题宏大但摘要多为概念阐述和趋势分析，缺乏具体的新架构或实验数据支撑，属于综述/观点类文章。

cs.RO 閱讀原文

Background VLA 2026-05-14

X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction

Kai Xiong et al. · 通过双向动作-姿态交互增强空间感知。虽提及VLA背景，但核心仍是模仿学习中的空间建模技巧，未见对VLA大模型特性的深度整合或SOTA突破。

cs.RO 閱讀原文

Background VLA 2026-05-14

From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation

Yajie Li et al. · 利用视频生成模型的想象未来指导动作执行。混合潜在动作方法有一定新意，但摘要未展示在标准VLA Benchmark上的显著优势，暂归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-05-14

SI-Diff: A Framework for Learning Search and High-Precision Insertion with a Force-Domain Diffusion Policy

Yibo Liu et al. · 针对高精度插入任务提出力域扩散策略。专注于特定接触任务（Peg-in-hole），虽有效但适用范围较窄，未体现VLA的通用泛化能力，归为📖。

cs.RO 閱讀原文

Background VLA 2026-05-14

SafeManip: A Property-Driven Benchmark for Temporal Safety Evaluation in Robotic Manipulation

Chengyue Huang et al. · 发布了一个针对时序安全性的操作基准。数据集/Benchmark类工作，对社区重要但不紧急，且不包含新的VLA算法或模型，故归为📖。

cs.RO 閱讀原文

Background VLA 2026-05-14

ACSAC: Adaptive Chunk Size Actor-Critic with Causal Transformer Q-Network

Qian Chen et al. · 提出自适应分块大小的Actor-Critic算法。属于强化学习算法改进，虽可用于机器人，但未明确结合VLA的大模型特性或视觉语言输入，关联性一般。

cs.RO 閱讀原文

Background VLA 2026-05-14

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

Andrew Choi et al. · 通过自监督动作排名实现离线到在线RL。通用RL算法改进，未针对VLA架构进行特定优化或验证，故归为📖。

cs.RO 閱讀原文

Background VLA 2026-05-14

Behavioral Mode Discovery for Fine-tuning Multimodal Generative Policies

Alberta Longhini et al. · 关注多模态生成策略微调中的行为模式发现。虽与VLA相关，但侧重于RL微调过程中的分布保持问题，非VLA核心架构创新，归为📖。

cs.RO 閱讀原文

Background VLA 2026-05-14

Tacmap: Bridging the Tactile Sim-to-Real Gap via Geometry-Consistent Penetration Depth Map

Lei Su et al. · 提出几何一致的穿透深度图以缩小触觉Sim2Real差距。专注于触觉传感器仿真，虽对触觉VLA有用，但属于底层感知仿真技术，非上层VLA策略创新。

cs.RO 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-14