VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-06-04

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs Yueh-Hua Wu et al. · 提出视觉证据预算机制，优化 VLA 在干扰下的泛化能力。核心贡献在于动态调整视觉输入权重，提升推理效率与鲁棒性，代码开源后可直接集成至现有 VLA 推理流程。 CS.RO
SeeTraceAct: Visibility-Aware Latent Planning from Cross-Embodiment Demonstration Videos Jaehyeon Son et al. · 利用跨形态演示视频进行单样本条件化 VLA 学习，引入可见性感知的潜在规划模块。解决了新任务数据稀缺问题，方法可直接应用于少样本场景下的策略适配。 CS.RO
TTT-VLA: Test-Time Latent Prompt Optimization for Vision-Language-Action Models Wenbo Zhang et al. · 提出测试时潜在提示优化（TTT）框架，通过在线微调 prompt 应对部署时的分布偏移。无需重新训练模型即可提升适应性，为 VLA 的现场部署提供了低成本的自适应方案。 CS.RO
How Visible Are Silent Manipulation Failures? An Observability Study of False-Success Detection in Simulated Robot Episodes Aarav Bedi (University of California et al. · 分析仿真中虚假成功标签的可观测性，揭示模仿学习中的标签噪声问题。虽无新算法，但为数据清洗和评估指标改进提供了重要实证依据，适合了解数据质量瓶颈。 CS.RO
ConTrack: Constrained Hand Motion Tracking with Adaptive Trade-off Control Yutong Liang et al. · 解决灵巧手运动跟踪中的运动学间隙问题，提出自适应权衡控制策略。侧重于底层控制而非高层 VLA 决策，属于 VLA 下游执行层优化，对整体架构影响有限。 CS.RO
GeoAlign: Beyond Semantics with State-Guided Spatial Alignment in VLA Models Yizhi Chen et al. · 引入状态引导的空间对齐模块 GeoAlign，弥补 VLA 仅关注语义而忽略几何空间的不足。通过显式建模空间关系提升操作精度，模块即插即用，显著改善复杂场景下的抓取成功率。 CS.RO
Grasp-Then-Plan with Failure Attribution: A Closed Two-Stage Framework for Precise and Generalizable Robotic Manipulation Jiahao Xu et al. · 提出两阶段抓取-规划框架并引入失败归因机制，解耦抓取与路径规划。虽提升了长程任务效率，但属于传统模块化方法的改进，未体现 VLA 端到端优势，复用性受限。 CS.RO
OpenEAI-Platform: An Open-source Embodied Artificial Intelligence Hardware-Software Unified Platform Jinyuan Zhang et al. · 发布开源软硬件统一平台 OpenEAI，集成低成本机械臂与 VLA 策略。主要贡献在于工程基础设施搭建，便于社区复现实验，但方法论创新较少，适合作为硬件参考。 CS.RO
Static and Dynamic Representations for Tactile Contact-Angle Estimation with Event-Based Sensors Yanhui Lu et al. · 研究基于事件相机的触觉接触角估计，对比静态与动态表征。聚焦于底层触觉感知信号处理，虽属触觉 VLA 上游技术，但未涉及高层策略学习，应用路径较长。 CS.RO
NVIDIA Isaac Sim: Enabling Scalable, GPU-Accelerated Simulation for Robotics [NVIDIA] Sicong Gao et al. · 介绍 NVIDIA Isaac Sim 的 GPU 加速仿真能力。作为工具类论文，提供大规模并行训练基础设施，虽重要但属已知平台更新，无新算法或理论突破。 CS.RO
Partially Observable Adversarial Patch Attacks on Vision-Language-Action Models in Robotics Xiaofei Wang et al. · 探索部分可观测条件下对抗补丁对 VLA 的攻击效果，揭示视觉遮挡下的安全漏洞。为 VLA 的安全性评估提供新视角，防御策略可直接增强部署系统的鲁棒性。 CS.RO
PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models Ziyang Chen et al. · 提出相位感知与语义经验回放机制 PHASER，缓解 VLA 持续学习中的灾难性遗忘。通过智能筛选关键经验提升样本效率，方法兼容主流 VLA 训练流程，易于集成。 CS.RO

2026-06-04

VLA 研究日報VLA 研究日报

12 篇 15 篇共 27 篇

🔧 技術技术

Practical VLA 2026-06-04

See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs

Yueh-Hua Wu et al. · 提出视觉证据预算机制，优化 VLA 在干扰下的泛化能力。核心贡献在于动态调整视觉输入权重，提升推理效率与鲁棒性，代码开源后可直接集成至现有 VLA 推理流程。

cs.RO 閱讀原文

Practical VLA 2026-06-04

SeeTraceAct: Visibility-Aware Latent Planning from Cross-Embodiment Demonstration Videos

Jaehyeon Son et al. · 利用跨形态演示视频进行单样本条件化 VLA 学习，引入可见性感知的潜在规划模块。解决了新任务数据稀缺问题，方法可直接应用于少样本场景下的策略适配。

cs.RO 閱讀原文

Practical VLA 2026-06-04

TTT-VLA: Test-Time Latent Prompt Optimization for Vision-Language-Action Models

Wenbo Zhang et al. · 提出测试时潜在提示优化（TTT）框架，通过在线微调 prompt 应对部署时的分布偏移。无需重新训练模型即可提升适应性，为 VLA 的现场部署提供了低成本的自适应方案。

cs.RO 閱讀原文

Practical VLA 2026-06-04

GeoAlign: Beyond Semantics with State-Guided Spatial Alignment in VLA Models

Yizhi Chen et al. · 引入状态引导的空间对齐模块 GeoAlign，弥补 VLA 仅关注语义而忽略几何空间的不足。通过显式建模空间关系提升操作精度，模块即插即用，显著改善复杂场景下的抓取成功率。

cs.RO 閱讀原文

Practical VLA 2026-06-04

Partially Observable Adversarial Patch Attacks on Vision-Language-Action Models in Robotics

Xiaofei Wang et al. · 探索部分可观测条件下对抗补丁对 VLA 的攻击效果，揭示视觉遮挡下的安全漏洞。为 VLA 的安全性评估提供新视角，防御策略可直接增强部署系统的鲁棒性。

cs.RO 閱讀原文

Practical VLA 2026-06-04

PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models

Ziyang Chen et al. · 提出相位感知与语义经验回放机制 PHASER，缓解 VLA 持续学习中的灾难性遗忘。通过智能筛选关键经验提升样本效率，方法兼容主流 VLA 训练流程，易于集成。

cs.RO 閱讀原文

Practical VLA 2026-06-04

Revisiting Embodied Chain-of-Thought for Generalizable Robot Manipulation

Nan Sun et al. · 系统重访具身思维链（CoT）在 VLA 中的作用，揭示其有效形式与集成策略。澄清了 CoT 对泛化的实际贡献边界，为设计更高效的推理中间态提供明确指导。

cs.RO 閱讀原文

Practical VLA 2026-06-04

Denoising Tells When to Replan: Denoising-Variance Adaptive Chunking for Flow-Based Robot Policies

Xiangdong Feng et al. · 利用去噪方差自适应调整动作分块长度，优化流匹配策略的执行连贯性。无需额外训练即可动态平衡计算成本与控制精度，显著提升推理阶段的灵活性。

cs.RO 閱讀原文

Practical VLA 2026-06-04

PointAction: 3D Points as Universal Action Representations for Robot Control

Mutian Tong et al. · 提出将 3D 点云作为通用动作表示，桥接视频扩散模型与机器人控制。解决了 RGB-only 模型缺乏深度信息的问题，为多模态 VLA 提供了新的动作输出范式。

cs.RO 閱讀原文

Practical VLA 2026-06-04

TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches

Zhengxian Huang et al. · 展示如何通过对抗补丁劫持 VLA 的思维链推理过程，暴露 CoT 的安全隐患。为理解 VLA 内部逻辑脆弱性提供实证，防御机制可直接用于增强模型安全性。

cs.RO 閱讀原文

Practical VLA 2026-06-04

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

Josef Chen · 提出动作门控记忆机制 AURA，在恒定显存下管理长期依赖。解决 VLA 长序列推理中的内存瓶颈，架构轻量且即插即用，显著提升边缘设备上的部署可行性。

cs.RO 閱讀原文

Practical VLA 2026-06-04

OMP: One-step Meanflow Policy with Directional Alignment

Han Fang et al. · 提出单向均值流策略 OMP，实现一步推理的高效控制。通过方向对齐解决流匹配模型的延迟问题，显著降低推理耗时，为实时 VLA 部署提供高性能替代方案。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-06-04

How Visible Are Silent Manipulation Failures? An Observability Study of False-Success Detection in Simulated Robot Episodes

Aarav Bedi (University of California et al. · 分析仿真中虚假成功标签的可观测性，揭示模仿学习中的标签噪声问题。虽无新算法，但为数据清洗和评估指标改进提供了重要实证依据，适合了解数据质量瓶颈。

cs.RO 閱讀原文

Background VLA 2026-06-04

ConTrack: Constrained Hand Motion Tracking with Adaptive Trade-off Control

Yutong Liang et al. · 解决灵巧手运动跟踪中的运动学间隙问题，提出自适应权衡控制策略。侧重于底层控制而非高层 VLA 决策，属于 VLA 下游执行层优化，对整体架构影响有限。

cs.RO 閱讀原文

Background VLA 2026-06-04

Grasp-Then-Plan with Failure Attribution: A Closed Two-Stage Framework for Precise and Generalizable Robotic Manipulation

Jiahao Xu et al. · 提出两阶段抓取-规划框架并引入失败归因机制，解耦抓取与路径规划。虽提升了长程任务效率，但属于传统模块化方法的改进，未体现 VLA 端到端优势，复用性受限。

cs.RO 閱讀原文

Background VLA 2026-06-04

OpenEAI-Platform: An Open-source Embodied Artificial Intelligence Hardware-Software Unified Platform

Jinyuan Zhang et al. · 发布开源软硬件统一平台 OpenEAI，集成低成本机械臂与 VLA 策略。主要贡献在于工程基础设施搭建，便于社区复现实验，但方法论创新较少，适合作为硬件参考。

cs.RO 閱讀原文

Background VLA 2026-06-04

Static and Dynamic Representations for Tactile Contact-Angle Estimation with Event-Based Sensors

Yanhui Lu et al. · 研究基于事件相机的触觉接触角估计，对比静态与动态表征。聚焦于底层触觉感知信号处理，虽属触觉 VLA 上游技术，但未涉及高层策略学习，应用路径较长。

cs.RO 閱讀原文

Background VLA [NVIDIA] 2026-06-04

NVIDIA Isaac Sim: Enabling Scalable, GPU-Accelerated Simulation for Robotics

Sicong Gao et al. · 介绍 NVIDIA Isaac Sim 的 GPU 加速仿真能力。作为工具类论文，提供大规模并行训练基础设施，虽重要但属已知平台更新，无新算法或理论突破。

cs.RO 閱讀原文

Background VLA 2026-06-04

A 3D Isovist World Model -- Revealing a City's Unseen Geometry and Its Emergent Cross-City Signature

Xuhui Lin et al. · 构建基于视域（Isovist）的城市世界模型，预测导航环境几何变化。侧重宏观导航而非精细操作，与 VLA 核心任务距离较远，仅作为环境建模参考。

cs.RO 閱讀原文

Background VLA 2026-06-04

Preference-Calibrated Human-in-the-Loop Reinforcement Learning for Robotic Manipulation

Zeyi Liu et al. · 结合偏好校准的人类反馈强化学习，提升在线干预的效率。虽涉及人机协作，但核心仍为 RL 调优，未深入探讨 VLA 架构层面的融合，应用路径不够直接。

cs.RO 閱讀原文

Background VLA 2026-06-04

Making Embodied AI Reliable: A Community Agenda from Testing to Formal Verification

Xi Zheng et al. · 综述 Embodied AI 可靠性挑战与验证议程，涵盖测试到形式化验证。属领域路线图性质，无具体技术方案，适合把握行业趋势而非技术实现。

cs.RO 閱讀原文

Background VLA 2026-06-04

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Inhee Lee et al. · 从单图重建仿真就绪的组合 3D 场景，解决物理一致性难题。虽服务于机器人仿真，但侧重计算机视觉重建，非 VLA 核心算法，可作为数据生成辅助工具。

cs.RO 閱讀原文

Background VLA 2026-06-04

Temporal Action Selection for Action Chunking

Yueyang Weng et al. · 优化动作分块的时间选择策略，提升示范学习效率。属于 LfD 基础技巧改进，创新幅度较小，对 VLA 架构影响有限，仅作为工程细节参考。

cs.RO 閱讀原文

Background VLA 2026-06-04

VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models

Borong Zhang et al. · 发布开源 VLA 基准测试框架 VLA-Arena，量化模型极限与失败模式。虽无新算法，但提供标准化评估工具，对比较不同 VLA 架构性能具有重要参考价值。

cs.RO 閱讀原文

Background VLA 2026-06-04

From Video to Control: A Survey of Learning Manipulation Interfaces from Temporal Visual Data

Linfang Zheng et al. · 综述从时序视觉数据学习操作接口的方法，涵盖视频到控制的映射。属回顾性文章，梳理现有工作但无新贡献，适合快速了解领域全貌。

cs.RO 閱讀原文

Background VLA 2026-06-04

OneVLA: A Unified Framework for Embodied Tasks

Lingfeng Zhang et al. · 提出统一导航与操作的 VLA 框架 OneVLA。标题宏大但摘要未详述架构创新，疑似现有模块组合，需正文验证其是否真正解决跨任务迁移瓶颈，暂归为值得了解。 [💧灌水]

cs.RO 閱讀原文

Background VLA 2026-06-04

The DeepSpeak-Agentic Dataset

Sarah Barrington et al. · 发布包含 37 小时人机对话的视频数据集 DeepSpeak-Agentic，用于 AI 代理取证识别。侧重音频/视频内容分析，非机器人物理操作，仅作为多模态数据参考。

cs.AI 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-06-04