VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-04-29

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents 提出基于缓存的异步规划机制，利用任务计划局部性减少LLM调用延迟。提供降低Embodied Agent推理成本的具体工程方案，可直接集成至现有VLA推理管道。 HF-PAPER
CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies 针对Flow-based VLA推理效率低的问题，提出粗到细的动作生成策略。显著改善实时控制下的效率-质量权衡，为部署高性能VLA提供新架构思路。 HF-PAPER
AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation 设计即插即用的边缘适配器以解决云端VLA部署中的网络抖动和延迟问题。通过异步处理机制保障导航稳定性，为云边协同VLA系统提供实用工程组件。 HF-PAPER
Learning from the Best: Smoothness-Driven Metrics for Data Quality in Imitation Learning Soham Kulkarni et al. · 提出基于平滑度的数据质量指标以筛选高质量演示数据。虽对BC训练有益，但缺乏在主流VLA基准上的直接验证，属于数据预处理层面的改进。 CS.RO
Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines Ziyao Wang et al. · 综述VLA领域的数据基础设施、数据集及基准现状。指出数据引擎是未来关键瓶颈，适合快速了解领域数据生态，无具体新方法贡献。 CS.RO
Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training Suning Huang et al. · 识别并解决小样本微调导致的VLA指令跟随能力丧失（Lock-in）问题。提出保持可控性的训练策略，对实际场景中定制化VLA部署具有直接指导意义。 CS.RO
BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances Yifan Han et al. · 探索从人类视频到机器人动作的迁移，引入工具-目标可供性概念。方法新颖但主要依赖仿真或特定设置，未展示在LIBERO等标准VLA基准上的广泛泛化能力。 CS.RO
Modular Sensory Stream for Integrating Physical Feedback in Vision-Language-Action Models Jimin Lee et al. · 提出模块化感官流以整合触觉等物理反馈至VLA模型。解决多模态对齐难题，为提升灵巧操作性能提供可复用的架构模块，填补触觉VLA方向空白。 CS.RO
EgoLive: A Large-Scale Egocentric Dataset from Real-World Human Tasks Yihang Li et al. · 发布大规模第一人称真实世界任务数据集。虽有助于缓解数据稀缺，但作为纯数据集论文，需结合具体算法验证其价值，暂归为值得了解。 CS.RO
Tube Diffusion Policy: Reactive Visual-Tactile Policy Learning for Contact-rich Manipulation Teng Xue et al. · 提出管状扩散策略用于接触丰富操作，融合视觉与触觉反馈。针对灵巧操作痛点，提供具体的多模态策略学习方法，具备较高的实操参考价值。 CS.RO
Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation Haoming Xu et al. · 将操作解耦为移动和操作两个阶段，模拟人类行为模式。简化VLA策略学习难度，提升复杂任务成功率，为分层控制提供新的VLA实现范式。 CS.RO
Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms Qi Li et al. · 系统梳理VLA模型的安全威胁、评估方法及防御机制。属于安全领域的综述与框架探讨，对构建鲁棒系统重要，但非核心算法突破。 CS.RO

2026-04-29

VLA 研究日報VLA 研究日报

12 篇 13 篇共 25 篇

🔧 技術技术

Practical VLA 2026-04-29

AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents

提出基于缓存的异步规划机制，利用任务计划局部性减少LLM调用延迟。提供降低Embodied Agent推理成本的具体工程方案，可直接集成至现有VLA推理管道。

hf-papers 閱讀原文

Practical VLA 2026-04-29

CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies

针对Flow-based VLA推理效率低的问题，提出粗到细的动作生成策略。显著改善实时控制下的效率-质量权衡，为部署高性能VLA提供新架构思路。

hf-papers 閱讀原文

Practical VLA 2026-04-29

AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation

设计即插即用的边缘适配器以解决云端VLA部署中的网络抖动和延迟问题。通过异步处理机制保障导航稳定性，为云边协同VLA系统提供实用工程组件。

hf-papers 閱讀原文

Practical VLA 2026-04-29

Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training

Suning Huang et al. · 识别并解决小样本微调导致的VLA指令跟随能力丧失（Lock-in）问题。提出保持可控性的训练策略，对实际场景中定制化VLA部署具有直接指导意义。

cs.RO 閱讀原文

Practical VLA 2026-04-29

Modular Sensory Stream for Integrating Physical Feedback in Vision-Language-Action Models

Jimin Lee et al. · 提出模块化感官流以整合触觉等物理反馈至VLA模型。解决多模态对齐难题，为提升灵巧操作性能提供可复用的架构模块，填补触觉VLA方向空白。

cs.RO 閱讀原文

Practical VLA 2026-04-29

Tube Diffusion Policy: Reactive Visual-Tactile Policy Learning for Contact-rich Manipulation

Teng Xue et al. · 提出管状扩散策略用于接触丰富操作，融合视觉与触觉反馈。针对灵巧操作痛点，提供具体的多模态策略学习方法，具备较高的实操参考价值。

cs.RO 閱讀原文

Practical VLA 2026-04-29

Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation

Haoming Xu et al. · 将操作解耦为移动和操作两个阶段，模拟人类行为模式。简化VLA策略学习难度，提升复杂任务成功率，为分层控制提供新的VLA实现范式。

cs.RO 閱讀原文

Practical VLA 2026-04-29

$M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills

Siyao Xiao et al. · 通过层混合和元技能技术增强VLM的可泛化操作能力，避免灾难性遗忘。提供在不重新训练整个模型情况下提升性能的轻量级微调方案。

cs.RO 閱讀原文

Practical VLA 2026-04-29

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

Kaijun Zhou et al. · 深入分析VLA在不同XPU硬件上的部署约束与加速潜力。提供详细的性能基准和优化建议，为边缘端VLA落地提供关键的工程洞察。

cs.RO 閱讀原文

Practical VLA 2026-04-29

RL Token: Bootstrapping Online RL with Vision-Language-Action Models

Charles Xu et al. · 提出RL Token机制以引导VLA模型进行在线强化学习微调。解决VLA精调中的数据效率问题，为结合SFT与RL提供实用的技术路径。

cs.RO 閱讀原文

Practical VLA 2026-04-29

KERV: Kinematic-Rectified Speculative Decoding for Embodied VLA Models

Zihao Zheng et al. · 结合运动学校正的推测解码技术，显著提升VLA推理速度。解决VLA部署中的延迟瓶颈，提供可立即应用的加速算法，工程价值高。

cs.RO 閱讀原文

Practical VLA 2026-04-29

RoboECC: Multi-Factor-Aware Edge-Cloud Collaborative Deployment for VLA Models

Zihao Zheng et al. · 设计多因素感知的云边协同部署框架以优化VLA资源分配。解决大规模VLA在实际部署中的计算与通信瓶颈，提供系统级解决方案。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-04-29

Learning from the Best: Smoothness-Driven Metrics for Data Quality in Imitation Learning

Soham Kulkarni et al. · 提出基于平滑度的数据质量指标以筛选高质量演示数据。虽对BC训练有益，但缺乏在主流VLA基准上的直接验证，属于数据预处理层面的改进。

cs.RO 閱讀原文

Background VLA 2026-04-29

Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines

Ziyao Wang et al. · 综述VLA领域的数据基础设施、数据集及基准现状。指出数据引擎是未来关键瓶颈，适合快速了解领域数据生态，无具体新方法贡献。

cs.RO 閱讀原文

Background VLA 2026-04-29

BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances

Yifan Han et al. · 探索从人类视频到机器人动作的迁移，引入工具-目标可供性概念。方法新颖但主要依赖仿真或特定设置，未展示在LIBERO等标准VLA基准上的广泛泛化能力。

cs.RO 閱讀原文

Background VLA 2026-04-29

EgoLive: A Large-Scale Egocentric Dataset from Real-World Human Tasks

Yihang Li et al. · 发布大规模第一人称真实世界任务数据集。虽有助于缓解数据稀缺，但作为纯数据集论文，需结合具体算法验证其价值，暂归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-04-29

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Qi Li et al. · 系统梳理VLA模型的安全威胁、评估方法及防御机制。属于安全领域的综述与框架探讨，对构建鲁棒系统重要，但非核心算法突破。

cs.RO 閱讀原文

Background VLA 2026-04-29

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

Yifan Xie et al. · 从大规模人类演示中学习意图先验以辅助机器人操作。方法侧重于意图推断而非端到端VLA控制，实验验证主要集中在特定子任务上。

cs.RO 閱讀原文

Background VLA 2026-04-29

SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

Qianzhong Chen et al. · 针对长视界操作提出阶段感知的奖励建模方法。虽涉及RL优化，但主要贡献在于奖励函数设计，且实验场景较为特定，通用性待验证。

cs.RO 閱讀原文

Background VLA 2026-04-29

EL3DD: Extended Latent 3D Diffusion for Language Conditioned Multitask Manipulation

Jonas Bode et al. · 扩展潜在3D扩散模型以支持语言条件多任务操作。主要在仿真环境中验证，缺乏真实机器人数据的支撑，属于方法论的延伸。

cs.RO 閱讀原文

Background VLA 2026-04-29

ESPADA: Execution Speedup via Semantics Aware Demonstration Data Downsampling for Imitation Learning

Byung-ju Kim et al. · 通过语义感知下采样加速模仿学习执行。侧重于数据处理与训练效率，对VLA核心架构创新贡献有限，属于工程优化类工作。

cs.RO 閱讀原文

Background VLA 2026-04-29

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

Zihao Zheng et al. · 提出混合推测解码方法以加速VLA推理。与KERV高度相似，均为推测解码在VLA中的应用，创新性相对较弱，视为同类工作的补充。

cs.RO 閱讀原文

Background VLA 2026-04-29

Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control

Zunzhe Zhang et al. · 将生成控制视为优化问题，提出时间无条件流匹配方法。理论贡献突出，但实验主要集中于简单操作任务，未充分展示在复杂VLA场景下的优势。

cs.RO 閱讀原文

Background VLA 2026-04-29

Genie Sim PanoRecon: Fast Immersive Scene Generation from Single-View Panorama

Zhijun Li et al. · 提供从全景图快速生成3D仿真场景的方法。服务于机器人仿真环境构建，间接支持VLA训练，非直接的控制算法或模型改进。

cs.RO 閱讀原文

Background VLA 2026-04-29

QDTraj: Exploration of Diverse Trajectory Primitives for Articulated Objects Robotic Manipulation

Mathilde Kappel et al. · 探索铰接物体操作的多样化轨迹基元。侧重运动规划与传统控制，未体现VLA模型的端到端特性或语言引导能力。

cs.AI 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-04-29