VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-08

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models Yihan Lin et al. · 系统研究了 VLA 中潜在动作监督的方法，分析了不同表示对跨数据集建模的影响。为优化 VLA 训练范式提供了可复用的实验洞见和架构建议。 CS.RO
ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation Wei Li et al. · 提出 ConsisVLA-4D，通过增强时空一致性解决 VLA 在 3D 感知和 4D 推理中的局限。提升了复杂操作任务中的空间理解能力，具有明确的工程应用价值。 CS.RO
When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning Lakshita Dodeja et al. · 提出从行为克隆（BC）策略中提取 Q 值以支持在线强化学习的方法，解决了 BC 缺乏自我改进机制的问题。为 VLA 模型的在线微调提供了低成本、可复用的新路径。 CS.RO
Position: Embodied AI Requires a Privacy-Utility Trade-off Xiaoliang Fan et al. · 观点文章，讨论具身 AI 在敏感环境中的隐私与效用权衡。虽重要但属伦理/政策层面，无具体技术方法或实验贡献。 CS.RO
Efficient Model-Based Reinforcement Learning for Robot Control via Online Optimization Fang Nan et al. · 提出基于在线优化的模型基 RL 算法用于真实世界机器人控制。虽涉及真机实验，但未明确结合 VLA 架构或语言条件，更偏向传统控制理论。 CS.RO
SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation Taisei Hanyu et al. · 引入 SlotVLA，利用对象中心的关系表示增强 VLA 的多任务操作能力。通过解耦对象关系提升泛化性，为理解 VLA 内部表征提供新思路。 CS.RO
Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation Guo Ye et al. · 提出 DreamTacVLA，首次将触觉预测融入 VLA 框架以解决接触丰富操作难题。在 LIBERO 等基准上显著优于 SOTA，填补了触觉 VLA 的核心空白。 CS.RO
CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining I-Chun Arthur Liu et al. · 提出 CLAMP 预训练方法，利用对比学习融合 3D 多视图信息。虽相关，但主要贡献在于表征学习而非 VLA 架构创新，且缺乏大规模 VLA 基准对比。 CS.RO
Encoding Predictability and Legibility for Style-Conditioned Diffusion Policy Adrien Jacquet Cr\'etides et al. · 研究人机协作中扩散策略的可预测性与可读性平衡。侧重运动风格生成，非 VLA 核心决策逻辑，应用场景较为垂直。 CS.RO
3D Generation for Embodied AI and Robotic Simulation: A Survey Tianwei Ye et al. · 综述 3D 生成技术在具身 AI 仿真中的应用。作为文献梳理有价值，但无新方法或实验贡献，属于背景知识补充。 CS.RO
LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning Hao Chen et al. · 提出 LaST-R1，通过自适应物理潜在推理强化机器人操作。结合 RL 与 VLA 进行物理常识推理，为提升 VLA 在动态环境中的适应性提供可行方案。 CS.RO
RLDX-1 Technical Report Dongyoung Kim et al. · 技术报告，介绍 RLDX-1 模型。摘要未展示具体架构创新或超越 SOTA 的基准结果，更多是工程实现细节，需全文评估。 CS.RO

2026-05-08

VLA 研究日報VLA 研究日报

7 篇 11 篇 1 篇共 19 篇

⚡ 突破

Breakthrough VLA 2026-05-08

Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation

Guo Ye et al. · 提出 DreamTacVLA，首次将触觉预测融入 VLA 框架以解决接触丰富操作难题。在 LIBERO 等基准上显著优于 SOTA，填补了触觉 VLA 的核心空白。

cs.RO 閱讀原文

🔧 技術技术

Practical VLA 2026-05-08

From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models

Yihan Lin et al. · 系统研究了 VLA 中潜在动作监督的方法，分析了不同表示对跨数据集建模的影响。为优化 VLA 训练范式提供了可复用的实验洞见和架构建议。

cs.RO 閱讀原文

Practical VLA 2026-05-08

ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation

Wei Li et al. · 提出 ConsisVLA-4D，通过增强时空一致性解决 VLA 在 3D 感知和 4D 推理中的局限。提升了复杂操作任务中的空间理解能力，具有明确的工程应用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-08

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

Lakshita Dodeja et al. · 提出从行为克隆（BC）策略中提取 Q 值以支持在线强化学习的方法，解决了 BC 缺乏自我改进机制的问题。为 VLA 模型的在线微调提供了低成本、可复用的新路径。

cs.RO 閱讀原文

Practical VLA 2026-05-08

SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation

Taisei Hanyu et al. · 引入 SlotVLA，利用对象中心的关系表示增强 VLA 的多任务操作能力。通过解耦对象关系提升泛化性，为理解 VLA 内部表征提供新思路。

cs.RO 閱讀原文

Practical VLA 2026-05-08

LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning

Hao Chen et al. · 提出 LaST-R1，通过自适应物理潜在推理强化机器人操作。结合 RL 与 VLA 进行物理常识推理，为提升 VLA 在动态环境中的适应性提供可行方案。

cs.RO 閱讀原文

Practical VLA 2026-05-08

AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation

Hengkai Tan et al. · 提出 AnyPos，通过自动化任务无关的动作表示解决双臂数据稀缺和跨平台迁移难题。为双臂 VLA 提供了标准化的动作空间设计思路。

cs.RO 閱讀原文

Practical VLA 2026-05-08

From Reach to Insert: Tactile-Augmented Precision Assembly under Sub-Millimeter Tolerances

Xinpan Meng et al. · 提出触觉增强的精密装配策略，解决亚毫米级公差下的插入难题。为 VLA 在精细操作中的触觉融合提供了具体的工程实现和实验验证。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-08

Position: Embodied AI Requires a Privacy-Utility Trade-off

Xiaoliang Fan et al. · 观点文章，讨论具身 AI 在敏感环境中的隐私与效用权衡。虽重要但属伦理/政策层面，无具体技术方法或实验贡献。

cs.RO 閱讀原文

Background VLA 2026-05-08

Efficient Model-Based Reinforcement Learning for Robot Control via Online Optimization

Fang Nan et al. · 提出基于在线优化的模型基 RL 算法用于真实世界机器人控制。虽涉及真机实验，但未明确结合 VLA 架构或语言条件，更偏向传统控制理论。

cs.RO 閱讀原文

Background VLA 2026-05-08

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

I-Chun Arthur Liu et al. · 提出 CLAMP 预训练方法，利用对比学习融合 3D 多视图信息。虽相关，但主要贡献在于表征学习而非 VLA 架构创新，且缺乏大规模 VLA 基准对比。

cs.RO 閱讀原文

Background VLA 2026-05-08

Encoding Predictability and Legibility for Style-Conditioned Diffusion Policy

Adrien Jacquet Cr\'etides et al. · 研究人机协作中扩散策略的可预测性与可读性平衡。侧重运动风格生成，非 VLA 核心决策逻辑，应用场景较为垂直。

cs.RO 閱讀原文

Background VLA 2026-05-08

3D Generation for Embodied AI and Robotic Simulation: A Survey

Tianwei Ye et al. · 综述 3D 生成技术在具身 AI 仿真中的应用。作为文献梳理有价值，但无新方法或实验贡献，属于背景知识补充。

cs.RO 閱讀原文

Background VLA 2026-05-08

RLDX-1 Technical Report

Dongyoung Kim et al. · 技术报告，介绍 RLDX-1 模型。摘要未展示具体架构创新或超越 SOTA 的基准结果，更多是工程实现细节，需全文评估。

cs.RO 閱讀原文

Background VLA 2026-05-08

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

Yunhan Yang et al. · 提出 PhysForge 生成物理基础的 3D 资产用于虚拟世界。虽服务于具身 AI 仿真，但核心贡献在 3D 内容生成，非 VLA 算法本身。

cs.CV 閱讀原文

Background VLA 2026-05-08

How Does the Lagrangian Guide Safe Reinforcement Learning through Diffusion Models?

Xiaoyuan Cheng et al. · 探讨拉格朗日乘子法在扩散模型安全 RL 中的作用。理论性强，但未明确应用于 VLA 或具体机器人任务，通用性大于针对性。

cs.LG 閱讀原文

Background VLA 2026-05-08

Reduced-order Neural Modeling with Differentiable Simulation for High-Detail Tactile Perception

Yuhu Guo et al. · 利用可微仿真构建降阶神经模型以提升触觉感知效率。虽与触觉 VLA 相关，但侧重传感器模拟与建模，非端到端 VLA 控制策略。

cs.RO 閱讀原文

Background VLA 2026-05-08

iWorld-Bench: A Benchmark for Interactive World Models with a Unified Action Generation Framework

Jianjie Fang et al. · 发布 iWorld-Bench 基准，评估交互式世界模型。虽对具身 AI 有价值，但作为基准论文，其核心贡献在于评测体系而非新算法。

cs.AI 閱讀原文

Background VLA 2026-05-08

LoViF 2026 The First Challenge on Holistic Quality Assessment for 4D World Model (PhyScore)

Wei Luo et al. · 报道 LoViF 2026 挑战赛，关注 4D 世界模型视频质量评估。属评测标准讨论，无具体 VLA 方法创新。

cs.CV 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-08