VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-09

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts Yuhua Jiang et al. · 提出混合专家PEFT架构解决VLA微调过拟合，支持通用与专用知识解耦。提供明确参数高效微调路径，本周可复用于现有VLA模型优化。 CS.RO
When to Trust Imagination: Adaptive Action Execution for World Action Models Rui Wang et al. · 针对世界动作模型(WAM)提出自适应执行策略，动态决定开环执行步数而非固定长度。提升WAM在真实环境中的鲁棒性，方法可直接集成至现有WAM框架。 CS.RO
RobotEQ: Transitioning from Passive Intelligence to Active Intelligence in Embodied AI Kuofei Fang et al. · 探讨从被动指令到主动智能的范式转变，侧重概念框架与权限理解。缺乏具体算法细节或量化实验支撑，属于方向性综述类工作。 CS.RO
Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation Yixin Zhu et al. · 发布注重视觉真实感的仿真基准以缩小Sim2Real差距。虽重要但属数据集/基准贡献，非核心算法突破，供后续研究参考。 CS.RO
OA-WAM: Object-Addressable World Action Model for Robust Robot Manipulation Yushan Liu et al. · 引入对象可寻址的世界表示替代全局图像预测，增强WAM对局部变化的敏感度。提供新的世界模型表征思路，有助于提升复杂场景下的操作鲁棒性。 CS.RO
Adaptive Q-Chunking for Offline-to-Online Reinforcement Learning Nandiraju Gireesh et al. · 提出自适应动作分块大小以优化离线到在线RL迁移。虽涉及机器人学习，但更偏向通用RL算法改进，VLA直接相关性较弱且缺具体VLA实验。 CS.RO
TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation Hanyu Zhou et al. · 构建三元关系结构解耦外观、背景与物体，缓解VLA泛化难题。提供明确的视觉表征改进方案，适用于提升未见场景下的操作成功率。 CS.RO
AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models Yuhua Jiang et al. · 打破传统VLA刚性时间调度，采用异步流匹配加速推理并提升灵活性。提供具体的采样优化方法，可直接应用于基于扩散策略的VLA部署。 CS.RO
Continually Evolving Skill Knowledge in Vision Language Action Model Yuxuan Wu et al. · 关注VLA持续学习中的知识积累与适应问题。摘要未展示显著优于现有CIL方法的量化结果，更多为问题定义与初步探索。 CS.RO
Information Filtering via Variational Regularization for Robot Manipulation Jinhao Zhang et al. · 通过变分正则化过滤冗余信息以优化3D视觉策略。方法相邻但缺乏VLA特定语境下的深度验证，主要贡献在于正则化技巧而非架构创新。 CS.RO
MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models Xunlan Zhou et al. · 利用VLM提供多阶段奖励指导以简化RL训练。侧重RL奖励工程，非VLA核心架构或训练范式，对VLA直接复用价值有限。 CS.RO
LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning Hao Chen et al. · 结合强化学习与物理潜在空间推理，提升VLA在动态环境中的适应性。提供明确的RL精调路径，有助于解决长视界任务中的规划难题。 CS.RO

2026-05-09

VLA 研究日報VLA 研究日报

10 篇 17 篇共 27 篇

🔧 技術技术

Practical VLA 2026-05-09

VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts

Yuhua Jiang et al. · 提出混合专家PEFT架构解决VLA微调过拟合，支持通用与专用知识解耦。提供明确参数高效微调路径，本周可复用于现有VLA模型优化。

cs.RO 閱讀原文

Practical VLA 2026-05-09

When to Trust Imagination: Adaptive Action Execution for World Action Models

Rui Wang et al. · 针对世界动作模型(WAM)提出自适应执行策略，动态决定开环执行步数而非固定长度。提升WAM在真实环境中的鲁棒性，方法可直接集成至现有WAM框架。

cs.RO 閱讀原文

Practical VLA 2026-05-09

OA-WAM: Object-Addressable World Action Model for Robust Robot Manipulation

Yushan Liu et al. · 引入对象可寻址的世界表示替代全局图像预测，增强WAM对局部变化的敏感度。提供新的世界模型表征思路，有助于提升复杂场景下的操作鲁棒性。

cs.RO 閱讀原文

Practical VLA 2026-05-09

TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation

Hanyu Zhou et al. · 构建三元关系结构解耦外观、背景与物体，缓解VLA泛化难题。提供明确的视觉表征改进方案，适用于提升未见场景下的操作成功率。

cs.RO 閱讀原文

Practical VLA 2026-05-09

AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models

Yuhua Jiang et al. · 打破传统VLA刚性时间调度，采用异步流匹配加速推理并提升灵活性。提供具体的采样优化方法，可直接应用于基于扩散策略的VLA部署。

cs.RO 閱讀原文

Practical VLA 2026-05-09

LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning

Hao Chen et al. · 结合强化学习与物理潜在空间推理，提升VLA在动态环境中的适应性。提供明确的RL精调路径，有助于解决长视界任务中的规划难题。

cs.RO 閱讀原文

Practical VLA 2026-05-09

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

Lakshita Dodeja et al. · 从BC策略中提取Q值以启动在线RL，解决冷启动问题。提供实用的BC到RL转换工具，本周可复用于提升VLA模型的在线适应能力。

cs.AI 閱讀原文

Practical VLA 2026-05-09

MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware

Senthil Palanisamy et al. · 开源低成本长视界第一人称数据采集基础设施。填补大规模真实世界VLA数据缺口，团队可立即部署采集数据以增强训练集。

cs.CV 閱讀原文

Practical VLA 2026-05-09

DexSim2Real: Foundation Model-Guided Sim-to-Real Transfer for Generalizable Dexterous Manipulation

Zijian Zeng et al. · 利用基础模型引导灵巧手Sim2Real迁移，解决 embodiment mismatch。提供具体的域适应策略，适用于提升灵巧操作策略的真实部署效果。

cs.RO 閱讀原文

Practical VLA 2026-05-09

Action-to-Action Flow Matching

Jindou Jia et al. · 提出动作到动作流匹配，避免从高斯噪声采样，加速扩散策略推理。提供高效的策略生成新范式，可直接替换现有Diffusion Policy采样器。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-09

RobotEQ: Transitioning from Passive Intelligence to Active Intelligence in Embodied AI

Kuofei Fang et al. · 探讨从被动指令到主动智能的范式转变，侧重概念框架与权限理解。缺乏具体算法细节或量化实验支撑，属于方向性综述类工作。

cs.RO 閱讀原文

Background VLA 2026-05-09

Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation

Yixin Zhu et al. · 发布注重视觉真实感的仿真基准以缩小Sim2Real差距。虽重要但属数据集/基准贡献，非核心算法突破，供后续研究参考。

cs.RO 閱讀原文

Background VLA 2026-05-09

Adaptive Q-Chunking for Offline-to-Online Reinforcement Learning

Nandiraju Gireesh et al. · 提出自适应动作分块大小以优化离线到在线RL迁移。虽涉及机器人学习，但更偏向通用RL算法改进，VLA直接相关性较弱且缺具体VLA实验。

cs.RO 閱讀原文

Background VLA 2026-05-09

Continually Evolving Skill Knowledge in Vision Language Action Model

Yuxuan Wu et al. · 关注VLA持续学习中的知识积累与适应问题。摘要未展示显著优于现有CIL方法的量化结果，更多为问题定义与初步探索。

cs.RO 閱讀原文

Background VLA 2026-05-09

Information Filtering via Variational Regularization for Robot Manipulation

Jinhao Zhang et al. · 通过变分正则化过滤冗余信息以优化3D视觉策略。方法相邻但缺乏VLA特定语境下的深度验证，主要贡献在于正则化技巧而非架构创新。

cs.RO 閱讀原文

Background VLA 2026-05-09

MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models

Xunlan Zhou et al. · 利用VLM提供多阶段奖励指导以简化RL训练。侧重RL奖励工程，非VLA核心架构或训练范式，对VLA直接复用价值有限。

cs.RO 閱讀原文

Background VLA 2026-05-09

VOFA: Visual Object Goal Pushing with Force-Adaptive Control for Humanoids

Zichao Hu et al. · 针对人形机器人推重物任务提出力自适应控制。属特定技能控制算法，非通用VLA方法，缺乏跨任务泛化能力验证。

cs.RO 閱讀原文

Background VLA 2026-05-09

Position: Embodied AI Requires a Privacy-Utility Trade-off

Xiaoliang Fan et al. · 立场论文讨论具身AI隐私与效用的权衡。无技术方法或实验数据，属伦理与社会影响讨论，不纳入技术进展追踪。

cs.AI 閱讀原文

Background VLA 2026-05-09

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

I-Chun Arthur Liu et al. · 提出3D多视图对比预训练方法。虽涉及3D视觉，但更偏向表征学习，未明确展示对VLA端到端性能的显著提升。

cs.AI 閱讀原文

Background VLA 2026-05-09

RLDX-1 Technical Report

Dongyoung Kim et al. · 技术报告形式，摘要未披露具体架构创新或SOTA对比结果。需全文确认是否包含实质性新发现，暂归为了解级。

cs.AI 閱讀原文

Background VLA 2026-05-09

DexSynRefine: Synthesizing and Refining Human-Object Interaction Motion for Physically Feasible Dexterous Robot Actions

Hyesung Lee et al. · 合成并精炼HOI运动以生成物理可行的灵巧手动作。侧重数据合成流程，非核心控制算法，对VLA直接贡献有限。

cs.RO 閱讀原文

Background VLA 2026-05-09

TouchDrive: Electronics-Free Tactile Sensing Interface for Assistive Grasping

Jing Xu et al. · 提出无电子触觉传感接口用于辅助抓取。属硬件/传感器创新，非VLA算法或软件架构，与当前数字VLA研究主线不同。

cs.RO 閱讀原文

Background VLA 2026-05-09

EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields

Zhaoyang Yang et al. · 结合事件相机与世界模型，强调运动学到视觉的结构化映射。方法新颖但摘要未展示完整VLA闭环实验，暂归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-05-09

Reconstruction or Semantics? What Makes a Latent Space Useful for Robotic World Models

Nilaksh et al. · 分析世界模型潜在空间中重建与语义的重要性。属消融分析与洞见总结，非新方法提出，供优化现有WAM参考。

cs.RO 閱讀原文

Background VLA 2026-05-09

iWorld-Bench: A Benchmark for Interactive World Models with a Unified Action Generation Framework

Jianjie Fang et al. · 发布交互式世界模型基准。虽相关但属评估工具，非核心算法突破，供社区统一评测标准。

cs.AI 閱讀原文

Background VLA 2026-05-09

Render, Don't Decode: Weight-Space World Models with Latent Structural Disentanglement

Roussel Desmond Nzoyem et al. · 提出权重空间世界模型以避免解码瓶颈。方法前沿但摘要未明确其在机器人控制中的具体优势，需进一步验证。

cs.CV 閱讀原文

Background VLA 2026-05-09

Sensoformer: Robust Sim-to-Real Inference on Variable-Geometry Sensor Sets via Physics-Structured Randomization

Zhe Jia et al. · 针对可变几何传感器集的Sim2Real推理。侧重传感器数据处理，非VLA核心感知-决策链路，相关性中等。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-09