VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-02

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

World2Minecraft: Occupancy-Driven Simulated Scenes Construction 将真实世界场景转换为Minecraft仿真环境，虽有助于具身智能数据生成，但缺乏直接VLA训练或策略学习实验，属工具类工作。 HF-PAPER
Robot Learning from Human Videos: A Survey Junyi Ma et al. · 综述论文，总结从人类视频学习机器人技能的研究进展，重要但不紧急，无新算法贡献。 CS.RO
MotuBrain: An Advanced World Action Model for Robot Control MotuBrain Team et al. · 提出结合世界模型与动作预测的VLA架构，旨在增强对世界动态的细粒度建模，为VLA引入更深层的物理推理能力。 CS.RO
RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects Tim Missal et al. · 针对柔性线性物体（DLO）的动力学建模，使用状态空间模型，虽涉及操作但未明确结合VLA语义理解，属特定对象控制方法。 CS.RO
LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models Hao Chen et al. · 通过自适应物理潜在推理强化VLA的动作输出，解决显式语言推理延迟高问题，提供可复用的RL精调思路以提升VLA响应速度。 CS.RO
PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations Yang Zhang et al. · 利用对比表示学习构建基元推理系统，超越传统行为克隆，为VLA提供基于目标导向的任务分解框架，具有方法论创新。 CS.RO
TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance Zhemeng Zhang et al. · 提出视触觉融合范式，在推理阶段利用触觉引导视觉运动策略，显著提升接触丰富任务的鲁棒性，填补触觉VLA应用空白。 CS.RO
CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining I-Chun Arthur Liu et al. · 引入3D多视图对比预训练，解决2D表征缺失空间信息的问题，提升VLA在复杂空间操作中的泛化能力，代码/方法易复用。 CS.RO
Do World Action Models Generalize Better than VLAs? A Robustness Study Zhanguang Zhang et al. · 对比世界动作模型与VLA的鲁棒性，属评估与分析类研究，未提出新架构或显著性能突破，供了解领域现状。 CS.RO
GazeVLA: Learning Human Intention for Robotic Manipulation Chengyang Li et al. · 引入人类注视点作为意图信号辅助VLA学习，降低对大规模机器人演示数据的依赖，提供新的多模态对齐方向。 CS.RO
SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation Song Tang et al. · 基于LLM的3D室内场景生成工具，虽服务于具身AI仿真，但核心贡献在场景生成而非机器人控制策略。 CS.AI
A Pattern Language for Resilient Visual Agents Habtom Kahsay Gidey et al. · 探讨VLA在企业级系统中的软件架构模式，关注延迟与非确定性处理，属系统工程视角，非算法核心。 CS.AI

2026-05-02

VLA 研究日報VLA 研究日报

15 篇 9 篇共 24 篇

🔧 技術技术

Practical VLA 2026-05-02

MotuBrain: An Advanced World Action Model for Robot Control

MotuBrain Team et al. · 提出结合世界模型与动作预测的VLA架构，旨在增强对世界动态的细粒度建模，为VLA引入更深层的物理推理能力。

cs.RO 閱讀原文

Practical VLA 2026-05-02

LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

Hao Chen et al. · 通过自适应物理潜在推理强化VLA的动作输出，解决显式语言推理延迟高问题，提供可复用的RL精调思路以提升VLA响应速度。

cs.RO 閱讀原文

Practical VLA 2026-05-02

PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations

Yang Zhang et al. · 利用对比表示学习构建基元推理系统，超越传统行为克隆，为VLA提供基于目标导向的任务分解框架，具有方法论创新。

cs.RO 閱讀原文

Practical VLA 2026-05-02

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Zhemeng Zhang et al. · 提出视触觉融合范式，在推理阶段利用触觉引导视觉运动策略，显著提升接触丰富任务的鲁棒性，填补触觉VLA应用空白。

cs.RO 閱讀原文

Practical VLA 2026-05-02

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

I-Chun Arthur Liu et al. · 引入3D多视图对比预训练，解决2D表征缺失空间信息的问题，提升VLA在复杂空间操作中的泛化能力，代码/方法易复用。

cs.RO 閱讀原文

Practical VLA 2026-05-02

GazeVLA: Learning Human Intention for Robotic Manipulation

Chengyang Li et al. · 引入人类注视点作为意图信号辅助VLA学习，降低对大规模机器人演示数据的依赖，提供新的多模态对齐方向。

cs.RO 閱讀原文

Practical VLA 2026-05-02

DOT-Sim: Differentiable Optical Tactile Simulation with Precise Real-to-Sim Physical Calibration

Yang You et al. · 提供高精度可微分光学触觉仿真器及实到仿校准方法，解决触觉VLA数据稀缺瓶颈，极具工程复用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-02

From Action Labels to Sets: Rethinking Action Supervision for Imitation Learning from Corrective Feedback

Zhaoting Li et al. · 重新定义模仿学习中的动作监督形式，利用纠正反馈提升BC鲁棒性，为VLA处理噪声数据提供理论支撑与方法。

cs.RO 閱讀原文

Practical VLA 2026-05-02

Event-Centric World Modeling with Memory-Augmented Retrieval for Embodied Decision-Making

Zhaowen Fan et al. · 提出事件中心的世界模型，结合记忆增强检索提升具身决策效率，为VLA引入长程依赖与因果推理新机制。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-02

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

将真实世界场景转换为Minecraft仿真环境，虽有助于具身智能数据生成，但缺乏直接VLA训练或策略学习实验，属工具类工作。

hf-papers 閱讀原文

Background VLA 2026-05-02

Robot Learning from Human Videos: A Survey

Junyi Ma et al. · 综述论文，总结从人类视频学习机器人技能的研究进展，重要但不紧急，无新算法贡献。

cs.RO 閱讀原文

Background VLA 2026-05-02

RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects

Tim Missal et al. · 针对柔性线性物体（DLO）的动力学建模，使用状态空间模型，虽涉及操作但未明确结合VLA语义理解，属特定对象控制方法。

cs.RO 閱讀原文

Background VLA 2026-05-02

Do World Action Models Generalize Better than VLAs? A Robustness Study

Zhanguang Zhang et al. · 对比世界动作模型与VLA的鲁棒性，属评估与分析类研究，未提出新架构或显著性能突破，供了解领域现状。

cs.RO 閱讀原文

Background VLA 2026-05-02

SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation

Song Tang et al. · 基于LLM的3D室内场景生成工具，虽服务于具身AI仿真，但核心贡献在场景生成而非机器人控制策略。

cs.AI 閱讀原文

Background VLA 2026-05-02

A Pattern Language for Resilient Visual Agents

Habtom Kahsay Gidey et al. · 探讨VLA在企业级系统中的软件架构模式，关注延迟与非确定性处理，属系统工程视角，非算法核心。

cs.AI 閱讀原文

Background VLA 2026-05-02

EdgeFM: Efficient Edge Inference for Vision-Language Models

Mengling Deng et al. · 优化边缘端VLM推理效率，虽涉及部署，但主要贡献在模型压缩/加速工程，非VLA本体架构创新。

cs.CV 閱讀原文

Background VLA 2026-05-02

Can Tabular Foundation Models Guide Exploration in Robot Policy Learning?

探索表格基础模型在机器人策略学习中的应用，概念新颖但实验规模有限，属初步可行性验证。

hf-papers 閱讀原文

Background VLA 2026-05-02

Continuum tactile sensing via an amplified liquid metal interface

Erlong Wang et al. · 新型液态金属连续触觉传感器硬件研究，属传感硬件创新，未涉及VLA算法或控制策略集成。

Science-Advances 閱讀原文

Background VLA 2026-05-02

Learning Tactile-Aware Quadrupedal Loco-Manipulation Policies

Pokuang Zhou et al. · 四足机器人 loco-manipulation 中的触觉感知学习，虽涉及操作但侧重移动平台，且未明确结合VLA大模型范式。

cs.RO 閱讀原文

Background VLA 2026-05-02

Function-based Parametric Co-Design Optimization of Dexterous Hands

Mohammad Amin Mirzaee et al. · 灵巧手的功能参数协同设计优化，侧重机械设计与控制解耦，非VLA算法或策略学习核心内容。

cs.RO 閱讀原文

Background VLA 2026-05-02

FlexiTac: A Low-Cost, Open-Source, Scalable Tactile Sensing Solution for Robotic Systems

Binghao Huang et al. · 低成本开源触觉传感器硬件方案，虽实用但属硬件工程，未涉及VLA算法集成或策略学习实验。

cs.RO 閱讀原文

Background VLA 2026-05-02

Graph World Models: Concepts, Taxonomy, and Future Directions

Jiawei Liu et al. · 图世界模型的综述与分类，梳理现有方法并指出未来方向，属理论整理，无具体算法实现。

cs.AI 閱讀原文

Background VLA 2026-05-02

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Keming Wu et al. · 视觉生成模型演进综述，讨论从原子映射到代理世界模型的转变，背景相关但非直接VLA控制算法。

cs.CV 閱讀原文

Background VLA 2026-05-02

Constraint-Aware Flow Matching via Randomized Exploration

Zhengyan Huan et al. · 改进流匹配模型以处理约束违反问题，属生成模型算法优化，未明确应用于机器人操作或VLA场景。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-02