VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-12

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

BioProVLA-Agent: An Affordable, Protocol-Driven, Vision-Enhanced VLA-Enabled Embodied Multi-Agent System with Closed-Loop-Capable Reasoning for Biological Laboratory Manipulation Zhaohui Du et al. · 针对生物实验室自动化，提出基于VLA的多智能体系统以处理非结构化协议。属于特定领域应用，缺乏通用VLA架构创新或跨平台基准验证。 CS.RO
AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models Xiaoqi Li et al. · 提出触觉注入机制增强VLA在接触丰富场景下的反馈反应。填补了触觉VLA方向空白，方法具有明确的工程复用路径，适合本周集成测试。 CS.RO
CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations Robin Karlsson et al. · 通过缓存状态表示解决LLM作为机器人认知引擎时的TTFT延迟瓶颈。提供实时策略部署的工程优化方案，显著降低推理延迟，具备直接应用价值。 CS.RO
Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation Yanzhe Chen et al. · 提出锚点中心适应法解决VLA模型在特定硬件上的embodiment gap问题。针对低成本数据下的领域适应提供新方法，对实际部署有指导意义。 CS.RO
BrickCraft: Visuomotor Skill Composition with Situated Manual Guidance for Long-Horizon Interlocking Brick Assembly Jichuan Yu et al. · 专注于长视界积木组装的视觉运动技能组合框架。虽涉及操作，但任务过于特定且缺乏通用VLA基准对比，属于细分场景应用研究。 CS.RO
TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning Giacomo Spigler · 发布首个用于模仿学习中主动视觉和预期注视的基准数据集TAVIS。重要资源但无新算法贡献，供社区后续评估使用，非紧急技术突破。 CS.RO
HumanNet: Scaling Human-centric Video Learning to One Million Hours Yufan Deng et al. · 构建百万小时级人类中心视频数据集以支持具身智能学习。大规模数据基础设施工作，虽重要但属数据层贡献，不直接改变VLA训练范式。 CS.RO
Learning Visual Feature-Based World Models via Residual Latent Action Xinyu Zhang et al. · 提出基于残差潜在动作的视觉特征世界模型，避免像素生成开销。方法新颖但主要在仿真验证，缺乏真实机器人操作闭环证据。 CS.RO
Continually Evolving Skill Knowledge in Vision Language Action Model Yuxuan Wu et al. · 解决VLA持续学习中的灾难性遗忘问题，提出高效适应方法。针对CIL痛点提供具体解决方案，有助于提升模型长期演化能力，值得复现。 CS.RO
Large Video Planner Enables Generalizable Robot Control Boyuan Chen et al. · 利用大型视频规划器扩展多模态大模型以实现通用机器人控制。引入视频预测辅助决策，为VLA提供新的长视界规划视角，具备实验参考价值。 CS.RO
Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models Shuanghao Bai et al. · 提出潜在思维与预测机制，解决离散CoT与连续控制的失配问题。降低推理开销并提升逻辑一致性，为VLA内部表征优化提供新思路。 CS.RO
SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation Youqiang Gui et al. · 通过自进化扩散策略解决长视界操作中的性能退化问题。改进DP在堆叠观测下的表现，方法可直接应用于现有Diffusion Policy代码库。 CS.RO

2026-05-12

VLA 研究日報VLA 研究日报

15 篇 14 篇 1 篇共 30 篇

⚡ 突破

Breakthrough VLA [Microsoft] 2026-05-12

MolmoAct2: Action Reasoning Models for Real-world Deployment

Haoquan Fang et al. · 推出开源、轻量且专为真实部署优化的VLA模型MolmoAct2。在多项基准上超越闭源前沿模型，解决开放权重VLA的性能与部署瓶颈，确立新SOTA。

cs.RO 閱讀原文

🔧 技術技术

Practical VLA 2026-05-12

AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models

Xiaoqi Li et al. · 提出触觉注入机制增强VLA在接触丰富场景下的反馈反应。填补了触觉VLA方向空白，方法具有明确的工程复用路径，适合本周集成测试。

cs.RO 閱讀原文

Practical VLA 2026-05-12

CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations

Robin Karlsson et al. · 通过缓存状态表示解决LLM作为机器人认知引擎时的TTFT延迟瓶颈。提供实时策略部署的工程优化方案，显著降低推理延迟，具备直接应用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-12

Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation

Yanzhe Chen et al. · 提出锚点中心适应法解决VLA模型在特定硬件上的embodiment gap问题。针对低成本数据下的领域适应提供新方法，对实际部署有指导意义。

cs.RO 閱讀原文

Practical VLA 2026-05-12

Continually Evolving Skill Knowledge in Vision Language Action Model

Yuxuan Wu et al. · 解决VLA持续学习中的灾难性遗忘问题，提出高效适应方法。针对CIL痛点提供具体解决方案，有助于提升模型长期演化能力，值得复现。

cs.RO 閱讀原文

Practical VLA 2026-05-12

Large Video Planner Enables Generalizable Robot Control

Boyuan Chen et al. · 利用大型视频规划器扩展多模态大模型以实现通用机器人控制。引入视频预测辅助决策，为VLA提供新的长视界规划视角，具备实验参考价值。

cs.RO 閱讀原文

Practical VLA 2026-05-12

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models

Shuanghao Bai et al. · 提出潜在思维与预测机制，解决离散CoT与连续控制的失配问题。降低推理开销并提升逻辑一致性，为VLA内部表征优化提供新思路。

cs.RO 閱讀原文

Practical VLA 2026-05-12

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Youqiang Gui et al. · 通过自进化扩散策略解决长视界操作中的性能退化问题。改进DP在堆叠观测下的表现，方法可直接应用于现有Diffusion Policy代码库。

cs.RO 閱讀原文

Practical VLA 2026-05-12

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

Zhengtong Xu et al. · 提出生成式接触接地机制，提升灵巧手在接触丰富场景下的操控能力。结合视触觉信息，为高难度灵巧操作提供有效解决方案。

cs.RO 閱讀原文

Practical VLA 2026-05-12

Hydra-DP3: Frequency-Aware Right-Sizing of 3D Diffusion Policies for Visuomotor Control

Jinhao Zhang et al. · 从频域视角重构3D扩散策略，优化采样步骤与解码器设计。显著提升推理效率，为轻量化部署提供可复用的工程优化方案。

cs.RO 閱讀原文

Practical VLA 2026-05-12

VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts

Yuhua Jiang et al. · 提出广义与专用专家混合结构以优化VLA参数高效微调。缓解过拟合并提升泛化，为下游任务适配提供高效的LoRA替代方案。

cs.RO 閱讀原文

Practical VLA 2026-05-12

ForgeVLA: Federated Vision-Language-Action Learning without Language Annotations

Yuhao Zhou et al. · 提出无需语言标注的联邦VLA学习方法，解决数据隐私与标注成本问题。为分布式机器人数据协同训练提供可行路径，具工程价值。

cs.AI 閱讀原文

Practical VLA 2026-05-12

One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy

Zuojin Tang et al. · 重新审视VLA世界模型中的视觉带宽，提出每帧一token的高效编码策略。平衡预测精度与计算成本，为长视界规划提供轻量化实现参考。

cs.AI 閱讀原文

Practical VLA 2026-05-12

How to utilize failure demo data?: Effective data selection for imitation learning using distribution differences in attention mechanism

Kana Miyamoto et al. · 利用注意力机制分布差异筛选失败演示数据以提升模仿学习效率。提供简单有效的数据清洗策略，可快速集成到现有IL流程中。

cs.RO 閱讀原文

Practical VLA 2026-05-12

TAIL-Safe: Task-Agnostic Safety Monitoring for Imitation Learning Policies

Riad Ahmed et al. · 提出任务无关的安全监控框架TAIL-Safe，保障模仿学习策略的安全性。即插即用的安全模块，适用于各类IL/VLA策略部署前的风险管控。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-12

BioProVLA-Agent: An Affordable, Protocol-Driven, Vision-Enhanced VLA-Enabled Embodied Multi-Agent System with Closed-Loop-Capable Reasoning for Biological Laboratory Manipulation

Zhaohui Du et al. · 针对生物实验室自动化，提出基于VLA的多智能体系统以处理非结构化协议。属于特定领域应用，缺乏通用VLA架构创新或跨平台基准验证。

cs.RO 閱讀原文

Background VLA 2026-05-12

BrickCraft: Visuomotor Skill Composition with Situated Manual Guidance for Long-Horizon Interlocking Brick Assembly

Jichuan Yu et al. · 专注于长视界积木组装的视觉运动技能组合框架。虽涉及操作，但任务过于特定且缺乏通用VLA基准对比，属于细分场景应用研究。

cs.RO 閱讀原文

Background VLA 2026-05-12

TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning

Giacomo Spigler · 发布首个用于模仿学习中主动视觉和预期注视的基准数据集TAVIS。重要资源但无新算法贡献，供社区后续评估使用，非紧急技术突破。

cs.RO 閱讀原文

Background VLA 2026-05-12

HumanNet: Scaling Human-centric Video Learning to One Million Hours

Yufan Deng et al. · 构建百万小时级人类中心视频数据集以支持具身智能学习。大规模数据基础设施工作，虽重要但属数据层贡献，不直接改变VLA训练范式。

cs.RO 閱讀原文

Background VLA 2026-05-12

Learning Visual Feature-Based World Models via Residual Latent Action

Xinyu Zhang et al. · 提出基于残差潜在动作的视觉特征世界模型，避免像素生成开销。方法新颖但主要在仿真验证，缺乏真实机器人操作闭环证据。

cs.RO 閱讀原文

Background VLA 2026-05-12

3D Generation for Embodied AI and Robotic Simulation: A Survey

Tianwei Ye et al. · 综述3D生成在具身AI和机器人仿真中的应用。全面梳理现状但无新技术贡献，适合作为背景阅读而非即时技术跟进。

cs.RO 閱讀原文

Background VLA [LIBERO Team] 2026-05-12

Sword: Style-Robust World Models as Simulators via Dynamic Latent Bootstrapping for VLA Policy Post-Training

Jiaxuan Gao et al. · 利用动态潜在自举构建风格鲁棒的世界模型模拟器，用于VLA后训练。方法复杂且主要依赖仿真，真实机器人迁移效果待验证。

cs.AI 閱讀原文

Background VLA 2026-05-12

EggHand: A Multimodal Foundation Model for Egocentric Hand Pose Forecasting

Jaeyoung Choi et al. · 发布第一人称手部姿态预测基础模型EggHand。聚焦于人手姿态估计而非机器人控制策略，属于感知层工具而非核心VLA进展。

cs.CV 閱讀原文

Background VLA 2026-05-12

Soft tactile chip with in-situ sensing for haptic rendering and reverse feedback enhanced gross to fine teleoperation

Minglu Zhu et al. · 开发集成原位传感的软触觉芯片以增强遥操作反馈。硬件创新为主，虽相关但非软件/VLA算法层面的直接进展。

Nature-Comms 閱讀原文

Background VLA 2026-05-12

HAIC: Humanoid Agile Object Interaction Control via Dynamics-Aware World Model

Dongting Li et al. · 结合动力学感知世界模型实现人形机器人敏捷物体交互。侧重全身控制与动力学，虽涉及操作但非典型VLA视觉语言对齐范式。

cs.RO 閱讀原文

Background VLA 2026-05-12

AGWM: Affordance-Grounded World Models for Environments with Compositional Prerequisites

Qinshi Zhang (University of California et al. · 提出可供性接地世界模型以处理具有组合前提的环境。理论性强但实验多在仿真，缺乏真实机器人长视界操作验证。

cs.AI 閱讀原文

Background VLA 2026-05-12

Predictive but Not Plannable: RC-aux for Latent World Models

Wenyuan Li et al. · 揭示潜在世界模型预测准确但不可规划的问题，并提出RC-aux辅助训练。深入分析模型缺陷，但对VLA实际控制性能提升尚不明确。

cs.AI 閱讀原文

Background VLA 2026-05-12

LoopNav: Benchmarking Spatial Consistency in World Models

Kewei Lian et al. · 发布LoopNav基准以评估世界模型的空间一致性。重要评估工具但无新算法，供社区检验世界模型质量。

cs.AI 閱讀原文

Background VLA 2026-05-12

Render, Don't Decode: Weight-Space World Models with Latent Structural Disentanglement

Roussel Desmond Nzoyem et al. · 提出权重空间世界模型以避免像素解码开销。理论新颖但主要在视频预测层面，未展示其在机器人控制中的具体应用。

cs.AI 閱讀原文

Background VLA 2026-05-12

Neurosymbolic Imitation Learning with Human Guidance: A Privileged Information Approach

Nikhilesh Prabhakar et al. · 结合神经符号方法与人类指导的模仿学习。方法相邻但缺乏VLA架构整合及大规模基准验证，暂归为值得了解。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-12