VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-04-08

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking Haotian Xiang et al. · 针对多目标跟踪的扩散策略改进，引入贝叶斯专家选择平衡探索与利用。虽涉及移动机器人，但侧重感知跟踪而非 VLA 核心操作架构，应用路径较窄。 CS.RO
Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control [Jia Pan] Yuxuan Gao et al. · 提出基于漂移的单步策略优化方法，解决多步生成策略推理慢的问题，实现原生单步动作生成。代码若开源可立即用于加速现有 Diffusion Policy 部署。 CS.RO
CRAFT: Video Diffusion for Bimanual Robot Data Generation [USC|Sukhatme] Jason Chen et al. · 利用视频扩散模型生成双臂机器人训练数据，解决真实数据稀缺和视角单一问题。为双臂 VLA 训练提供低成本数据增强方案，本周可尝试集成。 CS.RO
A Multi-View 3D Telepresence System for XR Robot Teleoperation Enes Ulas Dincer et al. · 提出基于 XR 的多视角 3D 遥操作系统，改善深度感知。属于遥操作硬件/交互系统创新，非 VLA 算法或策略学习核心进展。 CS.RO
Build on Priors: Vision--Language--Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation Pierrick Lorang et al. · 结合视觉语言引导与神经符号方法进行少样本模仿学习。方法相邻但依赖特定符号抽象，缺乏明确 VLA 架构改进或大规模实验验证。 CS.RO
From Prompt to Physical Action: Structured Backdoor Attacks on LLM-Mediated Robotic Control Systems Mingyang Xie et al. · 揭示 LLM 控制机器人系统中的结构化后门攻击风险，聚焦安全对齐。虽重要但属安全攻防研究，非 VLA 性能或架构提升。 CS.RO
Adaptive Action Chunking at Inference-time for Vision-Language-Action Models Yuanchang Liang et al. · 提出推理时自适应动作分块策略，动态调整执行序列长度以平衡响应速度与稳定性。直接优化 VLA 推理延迟，工程价值高且易复用。 CS.RO
Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation? Zhongru Zhang et al. · 评估前沿视频生成模型（Veo-3）在机器人操作中的泛化能力边界。属探索性分析报告，未提出新 VLA 架构或显著超越 SOTA 的方法。 CS.RO
ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration Rongfeng Zhao et al. · 提出分层语义 - 物理框架解决多智能体协作中的语义执行鸿沟。侧重多智能体系统架构，非单机器人 VLA 核心策略创新。 CS.RO
Learning from Imperfect Demonstrations via Temporal Behavior Tree-Guided Trajectory Repair Aniruddh G. Puranic et al. · 利用时序行为树引导轨迹修复以从不完美的演示中学习。方法传统，主要结合行为树与 IL，缺乏 VLA 端到端学习的创新性。 CS.RO
E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes [ZJU] Jiajun Zhai et al. · 引入事件相机数据增强 VLA 在低光和模糊场景下的感知鲁棒性。解决极端光照下 VLA 失效痛点，传感器融合方案具明确落地价值。 CS.RO
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation Yifu Yuan et al. · 试图桥接视觉推理与决策执行，摘要描述较为宏观，缺乏具体架构细节或量化实验支撑，疑似概念性论文。 CS.RO

2026-04-08

VLA 研究日報VLA 研究日报

31 篇 6 篇共 37 篇

🔧 技術技术

Practical VLA [Jia Pan] 2026-04-08

Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control

Yuxuan Gao et al. · 提出基于漂移的单步策略优化方法，解决多步生成策略推理慢的问题，实现原生单步动作生成。代码若开源可立即用于加速现有 Diffusion Policy 部署。

cs.RO 閱讀原文

Practical VLA [USC|Sukhatme] 2026-04-08

CRAFT: Video Diffusion for Bimanual Robot Data Generation

Jason Chen et al. · 利用视频扩散模型生成双臂机器人训练数据，解决真实数据稀缺和视角单一问题。为双臂 VLA 训练提供低成本数据增强方案，本周可尝试集成。

cs.RO 閱讀原文

Practical VLA 2026-04-08

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

Yuanchang Liang et al. · 提出推理时自适应动作分块策略，动态调整执行序列长度以平衡响应速度与稳定性。直接优化 VLA 推理延迟，工程价值高且易复用。

cs.RO 閱讀原文

Practical VLA [ZJU] 2026-04-08

E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

Jiajun Zhai et al. · 引入事件相机数据增强 VLA 在低光和模糊场景下的感知鲁棒性。解决极端光照下 VLA 失效痛点，传感器融合方案具明确落地价值。

cs.RO 閱讀原文

Practical VLA 2026-04-08

ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models

Wencheng Ye et al. · 提出动作引导的自蒸馏方法压缩 VLA 模型，降低计算开销与推理延迟。针对部署瓶颈的直接优化，若开源将极具工程实用价值。

cs.RO 閱讀原文

Practical VLA [ETH] 2026-04-08

SERNF: Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows

Chenyu Yang et al. · 结合动作分块评论家与归一化流，实现样本高效的真实世界灵巧策略微调。直接解决真机微调成本高痛点，方法具体可复用。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-04-08

Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking

Haotian Xiang et al. · 针对多目标跟踪的扩散策略改进，引入贝叶斯专家选择平衡探索与利用。虽涉及移动机器人，但侧重感知跟踪而非 VLA 核心操作架构，应用路径较窄。

cs.RO 閱讀原文

Background VLA 2026-04-08

A Multi-View 3D Telepresence System for XR Robot Teleoperation

Enes Ulas Dincer et al. · 提出基于 XR 的多视角 3D 遥操作系统，改善深度感知。属于遥操作硬件/交互系统创新，非 VLA 算法或策略学习核心进展。

cs.RO 閱讀原文

Background VLA 2026-04-08

Build on Priors: Vision--Language--Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation

Pierrick Lorang et al. · 结合视觉语言引导与神经符号方法进行少样本模仿学习。方法相邻但依赖特定符号抽象，缺乏明确 VLA 架构改进或大规模实验验证。

cs.RO 閱讀原文

Background VLA 2026-04-08

From Prompt to Physical Action: Structured Backdoor Attacks on LLM-Mediated Robotic Control Systems

Mingyang Xie et al. · 揭示 LLM 控制机器人系统中的结构化后门攻击风险，聚焦安全对齐。虽重要但属安全攻防研究，非 VLA 性能或架构提升。

cs.RO 閱讀原文

Background VLA 2026-04-08

Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?

Zhongru Zhang et al. · 评估前沿视频生成模型（Veo-3）在机器人操作中的泛化能力边界。属探索性分析报告，未提出新 VLA 架构或显著超越 SOTA 的方法。

cs.RO 閱讀原文

Background VLA 2026-04-08

ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration

Rongfeng Zhao et al. · 提出分层语义 - 物理框架解决多智能体协作中的语义执行鸿沟。侧重多智能体系统架构，非单机器人 VLA 核心策略创新。

cs.RO 閱讀原文

Background VLA 2026-04-08

Learning from Imperfect Demonstrations via Temporal Behavior Tree-Guided Trajectory Repair

Aniruddh G. Puranic et al. · 利用时序行为树引导轨迹修复以从不完美的演示中学习。方法传统，主要结合行为树与 IL，缺乏 VLA 端到端学习的创新性。

cs.RO 閱讀原文

Background VLA 2026-04-08

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

Yifu Yuan et al. · 试图桥接视觉推理与决策执行，摘要描述较为宏观，缺乏具体架构细节或量化实验支撑，疑似概念性论文。

cs.RO 閱讀原文

Background VLA 2026-04-08

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

Yifu Yuan et al. · 提出基于强化学习的具身推理方法，使用“指向”作为中间表示。思路有趣但摘要未展示显著优于现有 R1 类方法的实验结果。

cs.RO 閱讀原文

Background VLA 2026-04-08

Learning to Grasp Anything by Playing with Random Toys

Dantong Niu et al. · 受儿童认知启发，通过与随机玩具交互学习通用抓取技能。理念新颖但摘要缺乏具体算法实现细节和多基准对比数据。

cs.RO 閱讀原文

Background VLA 2026-04-08

PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation

Yuanzhe Liu et al. · 引入功能可供性推理进行长程任务的进度感知策略学习。针对长程任务痛点，但需进一步确认其在复杂基准上的实际增益。

cs.RO 閱讀原文

Background VLA [Tsinghua] 2026-04-08

ST-BiBench: Benchmarking Multi-Stream Multimodal Coordination in Bimanual Embodied Tasks for MLLMs

Xin Wu et al. · 发布双臂具身任务的多流多模态协调基准 ST-BiBench。重要数据集资源，但属评测工具而非算法突破，供后续研究使用。

cs.RO 閱讀原文

Background VLA 2026-04-08

Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control

William Chen et al. · 研究可引导的 VLA 策略以实现分层控制。标题宏大但摘要未明确“可引导”的具体技术机制及相比基线的显著提升。

cs.RO 閱讀原文

Background VLA 2026-04-08

PlayWorld: Learning Robot World Models from Autonomous Play

Tenny Yin et al. · 通过自主玩耍学习机器人世界模型，旨在构建通用模拟器。方向前沿（世界模型），但摘要未展示超越现有视频预测模型的具体指标。

cs.RO 閱讀原文

Background VLA 2026-04-08

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

Siddharth Srikanth et al. · 通过多样化提示生成对 VLA 进行红队测试以提升鲁棒性。聚焦 VLA 安全性与指令敏感性，属对齐与安全研究方向。

cs.RO 閱讀原文

Background VLA [Alex Lamb] 2026-04-08

Learning Additively Compositional Latent Actions for Embodied AI

Hangxing Wei et al. · 学习具有加法组合结构的潜在动作以利用互联网视频数据。理论上有吸引力，但需验证其在真实机器人任务中的泛化效果。

cs.AI 閱讀原文

Background VLA 2026-04-08

VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models

Ravi Ranjan et al. · 提出 VLA 模型的“遗忘”机制以移除不安全或隐私敏感行为。填补 VLA 安全卸载空白，属新兴的安全对齐子方向。

cs.AI 閱讀原文

Background VLA 2026-04-08

InfBaGel: Human-Object-Scene Interaction Generation with Dynamic Perception and Iterative Refinement

Yude Zou et al. · 生成人体 - 物体 - 场景交互数据，服务于仿真与动画。虽可用于数据增强，但核心贡献在于生成模型而非机器人策略学习。

cs.AI 閱讀原文

Background VLA 2026-04-08

Optimizing Neurorobot Policy under Limited Demonstration Data through Preference Regret

Viet Dung Nguyen et al. · 利用偏好遗憾优化少样本下的神经机器人策略。方法针对数据稀缺问题，但摘要未展示在标准 VLA 基准上的对比优势。

cs.RO 閱讀原文

Background VLA [Xiaolong Wang] 2026-04-08

Human-Robot Copilot for Data-Efficient Imitation Learning

Rui Yan et al. · 提出人机副驾驶模式以提高模仿学习效率，处理 OOD 状态。交互模式创新，但需更多实验证明其对 VLA 训练的普适增益。

cs.RO 閱讀原文

Background VLA 2026-04-08

Learning Dexterous Grasping from Sparse Taxonomy Guidance

Juhan Park et al. · 从稀疏分类指导中学习灵巧抓取，减少密集标注依赖。针对灵巧手操作的数据效率问题，但技术路线较为常规。

cs.RO 閱讀原文

Background VLA 2026-04-08

VitaTouch: Property-Aware Vision-Tactile-Language Model for Robotic Quality Inspection in Manufacturing

Junyi Zong et al. · 融合视觉、触觉与语言的质检模型，识别材料表面属性。垂直领域应用（制造质检），非通用 VLA 基础架构研究。

cs.RO 閱讀原文

Background VLA 2026-04-08

Empowering Multi-Robot Cooperation via Sequential World Models

Zijie Zhao et al. · 利用序列世界模型赋能多机器人协作。侧重多智能体 MBRL，非单机器人 VLA 核心架构或策略创新。

cs.RO 閱讀原文

Background VLA [USC|Sukhatme] 2026-04-08

Learning Geometry-Aware Nonprehensile Pushing and Pulling with Dexterous Hands

Yunshuang Li et al. · 学习几何感知的非抓取式推拉操作，扩展灵巧手技能边界。具体操作技能研究，缺乏 VLA 层面的通用性突破。

cs.RO 閱讀原文

Background VLA 2026-04-08

Training-Free Refinement of Flow Matching with Divergence-based Sampling

Yeonwoo Cha et al. · 提出无需训练的基于散度的采样方法优化 Flow Matching。纯生成模型算法改进，未明确展示在机器人策略任务上的应用效果。

cs.AI 閱讀原文

Background VLA 2026-04-08

WIMLE: Uncertainty-Aware World Models with IMLE for Sample-Efficient Continuous Control

Mehran Aghabozorgi et al. · 结合隐式最大似然估计构建不确定性感知世界模型，提升连续控制样本效率。MBRL 方向进展，与 VLA 直接关联度一般。

cs.AI 閱讀原文

Background VLA 2026-04-08

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

DataFlow Team et al. · 推出统一的世界模型代码库与定义标准。基础设施类工作，有助于规范化研究，但本身非算法创新。

cs.CV 閱讀原文

Background VLA 2026-04-08

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Tommie Kerssies et al. · 利用增量 token 高效生成世界模型，降低视频预测计算量。视频建模效率优化，需进一步验证在机器人控制闭环中的表现。

cs.CV 閱讀原文

Background VLA 2026-04-08

Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning

Qi Wang et al. · 学习解耦世界模型以从干扰视频中迁移语义知识。提升 RL 在变化环境中的鲁棒性，但非 VLA 专属架构创新。

cs.CV 閱讀原文

Background VLA 2026-04-08

MPDiT: Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model

Quan Dao et al. · 提出多 patch 全局到局部 Transformer 架构加速扩散与流匹配模型。底层生成模型架构优化，尚未体现机器人领域特异性。

cs.CV 閱讀原文

Background VLA 2026-04-08

Co-Evolving Latent Action World Models

Yucen Wang et al. · 协同进化潜在动作世界模型，改进视频生成模型的可控性。世界模型方向进展，但需更多机器人任务验证其有效性。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-04-08