VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-13

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

2026-05-13

VLA 研究日報VLA 研究日报

15 篇 12 篇共 27 篇

🔧 技術技术

Practical VLA 2026-05-13

CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

提出在参数空间学习可迁移的能力向量，以解决VLA微调中的适应成本问题。提供了一种新的参数高效微调思路，具有明确的工程复用价值。

hf-papers 閱讀原文

Practical VLA 2026-05-13

Understanding Asynchronous Inference Methods for Vision-Language-Action Models

Ayoub Agouzoul · 深入分析VLA异步推理导致的观测陈旧问题及现有缓解方法。为部署高延迟VLA模型提供关键的工程洞见和优化方向，对实际系统搭建极具参考价值。

cs.RO 閱讀原文

Practical VLA 2026-05-13

Failing Forward: Adaptive Failure-Informed Learning for Vision-Language-Action Models

Meng Zheng et al. · 针对VLA仅依赖成功数据导致脆弱的问题，引入自适应失败信息学习机制。通过利用失败轨迹提供纠正信号，显著提升长程任务鲁棒性，方法具体且有效。

cs.RO 閱讀原文

Practical VLA 2026-05-13

ElasticFlow: One-Step Physics-Consistent Policy with Elastic Time Horizons for Language-Guided Manipulation

Kewei Chen et al. · 提出弹性时间视野的单步物理一致策略，旨在解决扩散策略的高延迟问题。在保证物理一致性的同时实现加速，对实时控制应用有明确价值。

cs.RO 閱讀原文

Practical VLA 2026-05-13

Preserving Foundational Capabilities in Flow-Matching VLAs through Conservative SFT

Tianyi Zhang et al. · 提出保守监督微调（ConSFT）以防止Flow-Matching VLA在微调中遗忘预训练能力。解决了灾难性遗忘这一关键痛点，方法简单有效，易于集成。

cs.RO 閱讀原文

Practical VLA 2026-05-13

Octopus Protocol: One-Shot Hardware Discovery and Control for AI Agents via Infrastructure-as-Prompts

Quilee Simeon et al. · 提出通过基础设施即提示实现硬件的一次性发现与控制。解决了VLA Agent在不同硬件平台部署时的适配难题，提供了具体的工程协议和接口方案。

cs.RO 閱讀原文

Practical VLA 2026-05-13

RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models

Weijia Liufu et al. · 引入恢复驱动的策略优化，利用失败回滚数据训练VLA从错误中恢复。直接针对接触丰富任务的鲁棒性，提供了新的训练信号来源，具有实质贡献。

cs.RO 閱讀原文

Practical VLA 2026-05-13

Retrieve-then-Steer: Online Success Memory for Test-Time Adaptation of Generative VLAs

Jianchao Zhao et al. · 提出检索-转向机制，利用在线成功记忆进行VLA测试时自适应。无需重新训练即可提升局部部署可靠性，方法轻量且具备即时应用潜力。

cs.RO 閱讀原文

Practical VLA 2026-05-13

VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

Hao Wang et al. · 通过视觉编码器接地对齐增强VLA的空间感知能力。针对2D预训练 backbone 缺乏3D几何监督的痛点，提供具体的对齐模块，有助于提升空间推理精度。

cs.RO 閱讀原文

Practical VLA 2026-05-13

Unified Noise Steering for Efficient Human-Guided VLA Adaptation

Junjie Lu et al. · 提出统一噪声引导机制以实现高效的人类指导VLA适配。降低了在线RL的成本，允许人类反馈直接干预扩散过程，提升了人机协作效率。

cs.RO 閱讀原文

Practical VLA 2026-05-13

PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models

Xinyu Guo et al. · 提出保留先验的微调方法，防止VLA在下游任务中丢失通用能力。与ConSFT类似，解决微调稳定性问题，提供另一种正则化视角，具有实用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-13

Test-Time Training for Visual Foresight Vision-Language-Action Models

Sangwu Park et al. · 针对视觉预见VLA提出测试时训练（TTT）以应对分布外偏移。使模型能在部署阶段动态适应新环境，提升了系统的鲁棒性和适应性，方法新颖。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-13

StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception

提出利用立体视觉增强单目VLA策略的深度感知能力。属于感知模态改进，非核心架构或训练范式突破，且未提及在多个主流Benchmark上的显著SOTA超越。

hf-papers 閱讀原文

Background VLA 2026-05-13

Trajectory-Consistent Flow Matching for Robust Visuomotor Policy Learning

Riad Ahmed et al. · 改进Flow Matching训练目标以保持一致性。虽涉及VLA核心算法，但摘要未展示跨Benchmark的显著优势或解决核心瓶颈的证据，视为算法层面的常规优化。

cs.RO 閱讀原文

Background VLA 2026-05-13

BEACON: Cross-Domain Co-Training of Generative Robot Policies via Best-Effort Adaptation

Antong Zhang et al. · 提出基于最佳努力适应的跨域协同训练框架。主要解决源域与目标域数据分布差异，属于领域适应范畴，缺乏对VLA通用泛化能力的根本性突破证据。

cs.RO 閱讀原文

Background VLA 2026-05-13

ATAAT: Adaptive Threat-Aware Adversarial Tuning Framework against Backdoor Attacks on Vision-Language-Action Models

Kewei Chen et al. · 关注VLA模型的后门攻击防御与安全对齐。虽重要但属于安全子领域，不直接提升操作性能或泛化能力，对日常VLA开发者的优先级较低。

cs.RO 閱讀原文

Background VLA 2026-05-13

Geometry Guided Self-Consistency for Physical AI

Yinwei Dai et al. · 利用几何引导的自我一致性来优化扩散/流匹配策略的随机性。属于推理阶段的启发式优化，未改变底层训练范式，贡献局限于特定推理场景。

cs.RO 閱讀原文

Background VLA 2026-05-13

ProcVLM: Learning Procedure-Grounded Progress Rewards for Robotic Manipulation

Youhe Feng et al. · 结合VLM生成过程感知的进度奖励以支持长程操作。侧重于RL奖励塑造，而非VLA架构本身，且主要依赖仿真或特定设置，通用性待验证。

cs.RO 閱讀原文

Background VLA 2026-05-13

Towards Backdoor-Based Ownership Verification for Vision-Language-Action Models

Ming Sun et al. · 探索基于后门的水印技术用于VLA所有权验证。属于知识产权与安全交叉领域，对提升机器人操作性能无直接帮助，受众较窄。

cs.RO 閱讀原文

Background VLA 2026-05-13

Drift is a Sampling Error: SNR-Aware Power Distributions for Long-Horizon Robotic Planning

Kewei Chen et al. · 将指令漂移重新概念化为采样误差，并提出信噪比感知的功率分布。理论新颖但主要聚焦于规划层面的噪声调度，对VLA核心操作能力的提升间接。

cs.RO 閱讀原文

Background VLA 2026-05-13

SABER: A Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation

Narsimha Menga et al. · 发布面向真实世界VLA适配的可扩展动作数据集。数据集类论文通常归为值得了解，除非其规模或质量引发范式变革，此处暂定为资源补充。

cs.RO 閱讀原文

Background VLA 2026-05-13

Zero-Shot Sim-to-Real Robot Learning: A Dexterous Manipulation Study on Reactive Catching

Kejia Ren et al. · 研究灵巧手零样本Sim-to-Real抓取。侧重特定技能（抓取）的物理控制，非通用VLA架构或训练方法，应用场景较为局限。

cs.RO 閱讀原文

Background VLA 2026-05-13

JODA: Composable Joint Dynamics for Articulated Objects

Tianhong Gao et al. · 提出可组合的关节动力学模型以模拟铰接物体。主要贡献在于仿真物理引擎的逼真度，对VLA算法本身的创新影响有限。

cs.RO 閱讀原文

Background VLA 2026-05-13

HeteroGenManip: Generalizable Manipulation For Heterogeneous Object Interactions

Zhenhao Shen et al. · 关注异构物体交互的可泛化操作。虽具挑战性，但摘要未展示超越现有VLA基准的架构创新，更像是一个特定任务领域的解决方案。

cs.RO 閱讀原文

Background VLA 2026-05-13

ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models

Zuojin Tang et al. · 利用无动作视频提取先验，构建代数一致的潜在转移模型。属于利用大规模无标签数据的自监督预训练探索，但尚未证明其在操作任务中的决定性优势。

cs.RO 閱讀原文

Background VLA 2026-05-13

RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

Huashuo Lei et al. · 发布综合性的机器人记忆基准测试。基准类工作重要但非紧急，需等待后续基于该基准的方法论出现才能评估其战略价值。

cs.RO 閱讀原文

Background VLA 2026-05-13

HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models

Qiuxuan Feng et al. · 结合世界动作模型（WAM）的想象与执行范式。试图平衡泛化与精度，但摘要未明确展示相比纯VLA或纯WAM方法的显著架构优势，略显概念堆砌。

cs.RO 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-13