VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-20

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Key-Gram: Extensible World Knowledge for Embodied Manipulation 提出 Key-Gram 框架，将世界知识解耦为可扩展模块嵌入 VLA，解决动态视觉状态下的组合指令推理问题。亮点在于模块化设计提升了知识更新灵活性，适合需频繁调整任务逻辑的 VLA 部署场景。 HF-PAPER
No Plan, Yet Human: A Reactive Robotics Model Predicts Human Planning Failures on a Clinical Task Michael Migacev et al. · 研究临床任务中人类规划失败的预测模型，侧重人机协作中的行为建模而非 VLA 核心架构或控制策略。虽涉及机器人交互，但缺乏对通用 VLA 策略学习的直接贡献。 CS.RO
Nori Bot: A Sub-$1,000 Floor-to-Counter Mobile Manipulator Antonio Li et al. · 介绍一款低成本开源移动操作平台 Nori Bot，解决了廉价舵机烧毁和固定高度工作空间限制。属于硬件工程创新，虽对普及机器人有用，但不涉及 VLA 算法或训练范式的突破。 CS.RO
SADP: Subgoal-Aware Diffusion Policy for Explainable Robots Learned from Foundation Model Generated Demonstrations Site Hu et al. · 提出子目标感知扩散策略 SADP，利用大模型生成演示数据并增强决策可解释性。亮点在于通过子目标分解提升长程任务成功率，为需要透明决策过程的 VLA 应用提供新路径。 CS.RO
Generalizable and Actionable Parts Pose Estimation with Symmetry Annotation-Free Learning Strategy Wenxiao Chen et al. · 提出无需对称标注的可泛化部件姿态估计方法 GAParts，旨在提升跨类别物体交互能力。虽对操作感知重要，但主要聚焦于视觉感知模块，未直接整合进端到端 VLA 控制闭环。 CS.RO
How to Instruct Your Robot: Dense Language Annotations Power Robot Policy Learning Bosung Kim et al. · 系统研究语言标注密度对机器人策略学习的影响，证明密集标注能显著提升有限演示数据下的策略性能。为 VLA 数据预处理和标注策略提供实证指导，具有直接的数据工程价值。 CS.RO
Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States Miranda Muqing Miao et al. · 提出 COAST 方法，通过对比概念激活引导 VLA 隐藏状态以缓解模型脆性。亮点在于无需重新训练即可通过干预中间层提升简单任务成功率，为 VLA 推理阶段的鲁棒性优化提供新思路。 CS.RO
Event-Grounded Sparse Autoencoders for Vision-Language-Action Policies Xinchen Jin et al. · 探索基于事件 grounding 的稀疏自编码器用于 VLA 策略的可解释性分析。侧重于机制可解释性工具的开发，虽有趣但尚未展示对控制性能的实质性提升或直接应用路径。 CS.RO
HCLM: A Hierarchical Framework for Cooperative Loco-Manipulation with Dual Quadrupeds Qixuan Li et al. · 提出双四足机器人协同移动操作的层级框架 HCLM，解决浮动基座下的协调难题。专注于特定多机器人协作场景，非通用 VLA 架构，且缺乏在标准 VLA benchmark 上的验证。 CS.RO
DyGRO-VLA: Cross-Task Scaling of Vision-Language-Action Models via Dynamic Grouped Residual Optimization Sixu Lin et al. · 提出 DyGRO-VLA，通过动态分组残差优化实现 VLA 模型的跨任务扩展。亮点在于结合 RL 与 SFT，解决传统微调中的灾难性遗忘问题，为多任务 VLA 训练提供高效优化方案。 CS.RO
AffordVLA: Injecting Affordance Representations into Vision-Language-Action Models via Implicit Feature Alignment Weijie Kong et al. · 提出 AffordVLA，通过隐式特征对齐将可供性表示注入 VLA，解决全局外观主导导致的局部关注不足。亮点在于增强模型对操作关键区域的敏感度，提升精细操作能力。 CS.RO
RoboFlow4D: A Lightweight Flow World Model Toward Real-Time Flow-Guided Robotic Manipulation Sixu Lin et al. · 提出轻量级流世界模型 RoboFlow4D，用于实时引导 3D 操作。虽涉及世界模型概念，但主要聚焦于视觉流预测模块，未明确展示其在端到端 VLA 策略中的集成效果及基准测试优势。 CS.RO

2026-05-20

VLA 研究日報VLA 研究日报

9 篇 18 篇 1 篇共 28 篇

⚡ 突破

Breakthrough VLA 2026-05-20

Dexora: Open-source VLA for High-DoF Bimanual Dexterity

Zongzheng Zhang et al. · 发布 Dexora，首个开源支持高自由度双臂灵巧操作的 VLA 模型。填补了现有 VLA 在复杂双手协同与灵巧手控制领域的空白，并在多个基准上展示了显著优于单臂或夹爪控制的泛化能力。

cs.RO 閱讀原文

🔧 技術技术

Practical VLA 2026-05-20

Key-Gram: Extensible World Knowledge for Embodied Manipulation

提出 Key-Gram 框架，将世界知识解耦为可扩展模块嵌入 VLA，解决动态视觉状态下的组合指令推理问题。亮点在于模块化设计提升了知识更新灵活性，适合需频繁调整任务逻辑的 VLA 部署场景。

hf-papers 閱讀原文

Practical VLA 2026-05-20

SADP: Subgoal-Aware Diffusion Policy for Explainable Robots Learned from Foundation Model Generated Demonstrations

Site Hu et al. · 提出子目标感知扩散策略 SADP，利用大模型生成演示数据并增强决策可解释性。亮点在于通过子目标分解提升长程任务成功率，为需要透明决策过程的 VLA 应用提供新路径。

cs.RO 閱讀原文

Practical VLA 2026-05-20

How to Instruct Your Robot: Dense Language Annotations Power Robot Policy Learning

Bosung Kim et al. · 系统研究语言标注密度对机器人策略学习的影响，证明密集标注能显著提升有限演示数据下的策略性能。为 VLA 数据预处理和标注策略提供实证指导，具有直接的数据工程价值。

cs.RO 閱讀原文

Practical VLA 2026-05-20

Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States

Miranda Muqing Miao et al. · 提出 COAST 方法，通过对比概念激活引导 VLA 隐藏状态以缓解模型脆性。亮点在于无需重新训练即可通过干预中间层提升简单任务成功率，为 VLA 推理阶段的鲁棒性优化提供新思路。

cs.RO 閱讀原文

Practical VLA 2026-05-20

DyGRO-VLA: Cross-Task Scaling of Vision-Language-Action Models via Dynamic Grouped Residual Optimization

Sixu Lin et al. · 提出 DyGRO-VLA，通过动态分组残差优化实现 VLA 模型的跨任务扩展。亮点在于结合 RL 与 SFT，解决传统微调中的灾难性遗忘问题，为多任务 VLA 训练提供高效优化方案。

cs.RO 閱讀原文

Practical VLA 2026-05-20

AffordVLA: Injecting Affordance Representations into Vision-Language-Action Models via Implicit Feature Alignment

Weijie Kong et al. · 提出 AffordVLA，通过隐式特征对齐将可供性表示注入 VLA，解决全局外观主导导致的局部关注不足。亮点在于增强模型对操作关键区域的敏感度，提升精细操作能力。

cs.RO 閱讀原文

Practical VLA 2026-05-20

StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

Yiyang Fu et al. · 提出 StableVLA，在不增加额外数据的情况下提升 VLA 对未见视觉扰动的鲁棒性。亮点在于通过训练策略优化增强模型稳定性，为解决 VLA 现实部署中的环境适应性问题提供实用方案。

cs.RO 閱讀原文

Practical VLA 2026-05-20

Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning

Yuan Liu et al. · 提出通过 RL 微调实现 VLA 的持续学习，解决预训练模型在长期部署中的适应性退化问题。亮点在于平衡知识保留与新任务适应，为 VLA 在线更新提供可行技术路径。

cs.RO 閱讀原文

Practical VLA 2026-05-20

OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism

Xiangyu Li et al. · 提出 OxyGen 统一管理 VLA 在多任务并行下的 KV Cache，优化推理效率。亮点在于解决 MoT 架构下的内存瓶颈，为大规模 VLA 部署提供关键的工程优化方案。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-20

No Plan, Yet Human: A Reactive Robotics Model Predicts Human Planning Failures on a Clinical Task

Michael Migacev et al. · 研究临床任务中人类规划失败的预测模型，侧重人机协作中的行为建模而非 VLA 核心架构或控制策略。虽涉及机器人交互，但缺乏对通用 VLA 策略学习的直接贡献。

cs.RO 閱讀原文

Background VLA 2026-05-20

Nori Bot: A Sub-$1,000 Floor-to-Counter Mobile Manipulator

Antonio Li et al. · 介绍一款低成本开源移动操作平台 Nori Bot，解决了廉价舵机烧毁和固定高度工作空间限制。属于硬件工程创新，虽对普及机器人有用，但不涉及 VLA 算法或训练范式的突破。

cs.RO 閱讀原文

Background VLA 2026-05-20

Generalizable and Actionable Parts Pose Estimation with Symmetry Annotation-Free Learning Strategy

Wenxiao Chen et al. · 提出无需对称标注的可泛化部件姿态估计方法 GAParts，旨在提升跨类别物体交互能力。虽对操作感知重要，但主要聚焦于视觉感知模块，未直接整合进端到端 VLA 控制闭环。

cs.RO 閱讀原文

Background VLA 2026-05-20

Event-Grounded Sparse Autoencoders for Vision-Language-Action Policies

Xinchen Jin et al. · 探索基于事件 grounding 的稀疏自编码器用于 VLA 策略的可解释性分析。侧重于机制可解释性工具的开发，虽有趣但尚未展示对控制性能的实质性提升或直接应用路径。

cs.RO 閱讀原文

Background VLA 2026-05-20

HCLM: A Hierarchical Framework for Cooperative Loco-Manipulation with Dual Quadrupeds

Qixuan Li et al. · 提出双四足机器人协同移动操作的层级框架 HCLM，解决浮动基座下的协调难题。专注于特定多机器人协作场景，非通用 VLA 架构，且缺乏在标准 VLA benchmark 上的验证。

cs.RO 閱讀原文

Background VLA 2026-05-20

RoboFlow4D: A Lightweight Flow World Model Toward Real-Time Flow-Guided Robotic Manipulation

Sixu Lin et al. · 提出轻量级流世界模型 RoboFlow4D，用于实时引导 3D 操作。虽涉及世界模型概念，但主要聚焦于视觉流预测模块，未明确展示其在端到端 VLA 策略中的集成效果及基准测试优势。

cs.RO 閱讀原文

Background VLA 2026-05-20

REBAR: Reference Ethical Benchmark for Autonomy Readiness

Jonathan Diller et al. · 提出 REBAR 伦理基准，评估自主系统的伦理合规性。属于安全与评估范畴，虽重要但不涉及 VLA 核心技术改进，仅作为辅助性评估工具参考。

cs.RO 閱讀原文

Background VLA 2026-05-20

EgoKit: Towards Unified Low-Cost Egocentric Data Collection with Heterogeneous Devices

Liuchuan Yu et al. · 介绍 EgoKit 套件，统一异构设备上的第一人称数据采集流程。属于数据收集基础设施，虽有助于扩大 VLA 训练数据规模，但本身不涉及算法创新或策略学习。

cs.RO 閱讀原文

Background VLA 2026-05-20

Is VLA Reasoning Faithful? Probing Safety of Chain-of-Causation

Nicanor Mayumu et al. · 系统性研究 VLA 因果链推理的忠实度与安全性，发现自然语言理由与控制动作存在脱节。侧重安全分析与诊断，未提出改进控制性能的新方法，属重要但非紧急的研究。

cs.RO 閱讀原文

Background VLA [TU Munich] 2026-05-20

Qumus: Realization of An Embodied AI Quantum Material Experimentalist

Lihan Shi et al. · 展示 Qumus 系统在量子材料实验中的应用，体现 Embodied AI 在科学发现中的潜力。属于垂直领域应用案例，缺乏通用 VLA 方法论的创新或基准测试对比。

cs.RO 閱讀原文

Background VLA 2026-05-20

Not What You Asked For: Typographic Attacks in Household Robot Manipulation

Ali Iranmanesh et al. · 揭示家庭机器人操作中基于排版攻击的安全漏洞，指出 CLIP 等模型的嵌入空间脆弱性。侧重安全威胁分析，虽具警示意义，但未提供防御机制或控制策略改进。

cs.RO 閱讀原文

Background VLA 2026-05-20

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

Hongli Xu et al. · 提出 FUNCanon 框架，通过功能对象规范化学习姿态感知动作原语。虽旨在提升泛化性，但主要聚焦于底层技能学习而非端到端 VLA 架构，且缺乏与主流 VLA 方法的直接对比。

cs.RO 閱讀原文

Background VLA 2026-05-20

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation

Wu Songwei et al. · 提出 CoLA-Flow 策略，利用连续潜在动作流匹配实现时间连贯的模仿学习。虽改进了扩散策略的时间一致性，但属于现有生成策略的微调优化，未触及 VLA 核心瓶颈。

cs.RO 閱讀原文

Background VLA 2026-05-20

Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning

Milan Ganai et al. · 提出自监督自举方法增强 VLA 的动作预测推理能力，摆脱刚性模板依赖。侧重推理机制优化，虽有价值但未在多个标准 VLA 基准上展示显著超越 SOTA 的性能提升。

cs.RO 閱讀原文

Background VLA 2026-05-20

Real-to-Sim for Highly Cluttered Environments via Physics-Consistent Inter-Object Reasoning

Tianyi Xiang et al. · 提出基于物理一致的对象间推理方法，改善杂乱环境下的 Real-to-Sim 重建质量。主要贡献在感知与仿真构建，未直接整合进 VLA 控制策略或展示端到端操作性能提升。

cs.RO 閱讀原文

Background VLA 2026-05-20

Learning Native Continuation for Action Chunking Flow Policies

Yufeng Liu et al. · 提出原生延续学习方法解决动作分块流策略的边界不连续问题。虽优化了执行平滑度，但属于对现有 RTC 等技术的具体改进，创新幅度有限，未改变 VLA 整体范式。

cs.RO 閱讀原文

Background VLA 2026-05-20

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Zaijing Li et al. · 提出双记忆增强 VLA 模型，结合全局先验与局部一致性以提升操作效率。虽引入记忆机制，但摘要未明确展示其在 LIBERO 等基准上的显著优势，疑似常规模块堆叠。

cs.RO 閱讀原文

Background VLA 2026-05-20

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Yinpei Dai et al. · 推出 RoboMME 基准，专门评估机器人通用策略的记忆能力。作为数据集/基准论文，虽重要但无新算法贡献，供后续研究参考使用。

cs.RO 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-20