VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-23

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Learning Structural Latent Points for Efficient Visual Representations in Robotic Manipulation 提出结构化潜在点表示以优化机器人操作的视觉表征，解决隐式场缺乏结构线索的问题。属于感知层改进，非核心 VLA 架构或训练范式创新。 HF-PAPER
EvoScene-VLA: Evolving Scene Beliefs Inside the Action Decoder for Chunked Robot Control Chushan Zhang et al. · 在动作解码器中引入演化场景信念机制，解决分块控制中的遮挡与几何变化问题。为处理长序列依赖和动态环境提供了新的 VLA 内部状态管理思路。 CS.RO
TacO: Benchmarking Tactile Sensors for Object Manipulation Anya Zorin et al. · 发布 TacO 基准测试集，专门评估触觉传感器在物体操作中的性能。填补了触觉 VLA 领域缺乏标准化 benchmark 的空白，对多模态对齐研究有重要参考价值。 CS.RO
Action with Visual Primitives Weilong Guo et al. · 探索将视觉基元（Visual Primitives）直接映射到动作空间的方法，替代传统的端到端黑盒映射。提供了一种可解释性更强、可能更高效的 VLA 特征提取新路径。 CS.RO
Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action Pengteng Li et al. · 提出 SOMA 框架，通过显式空间记忆模块增强 VLA 在目标移出视野后的持续操作能力。解决了现有 VLA 对视觉可见性的过度依赖，提升了长程任务的鲁棒性。 CS.RO
GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations Wenxuan Guo et al. · 引入手势感知嵌入以解决文本指令的空间歧义性问题，丰富了 VLA 的多模态输入维度。为利用非语言肢体信号提升操作精度提供了可行的工程方案。 CS.RO
PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects Ziang Cao et al. · 生成具备物理属性的 3D 资产用于仿真，虽有助于数据合成，但主要贡献在于 3D 生成而非 VLA 模型本身。属于上游数据基础设施，非核心算法进展。 CS.RO
stable-worldmodel: A Platform for Reproducible World Modeling Research and Evaluation Lucas Maes et al. · 提供世界模型研究的统一平台与评估协议，旨在解决代码库碎片化问题。作为工具型论文，对社区有价值但不包含新的 VLA 方法论突破。 CS.RO
Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts Zhen Sun et al. · 提出运行时验证机制以检测并纠正 VLA 和世界模型生成的低质量动作轨迹。为提升 VLA 部署安全性提供了实用的后处理/监控策略，具有工程落地价值。 CS.RO
SENIOR: Efficient Query Selection and Preference-Guided Exploration in Preference-based Reinforcement Learning Hexian Ni et al. · 改进基于偏好强化学习中的查询选择与探索效率。虽然 RL 精调是 VLA 热点，但该工作未明确结合 VLA 架构或展示在具身任务上的具体应用效果。 CS.RO
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control Zhengyi Luo et al. · 专注于人形机器人的全身运动跟踪控制，侧重于底层运动策略而非高层视觉语言理解。属于传统机器人控制范畴，非 VLA 核心研究方向。 CS.RO
Noise-Space Attribution and Control of Chunk-Boundary Artifact Rui Wang · 深入分析并控制扩散策略中分块边界伪影的噪声机制，揭示了动作不连续的根源。为优化 Diffusion Policy 等生成式 VLA 模型的平滑性提供了关键理论洞见。 CS.RO

2026-05-23

VLA 研究日報VLA 研究日报

11 篇 12 篇共 23 篇

🔧 技術技术

Practical VLA 2026-05-23

EvoScene-VLA: Evolving Scene Beliefs Inside the Action Decoder for Chunked Robot Control

Chushan Zhang et al. · 在动作解码器中引入演化场景信念机制，解决分块控制中的遮挡与几何变化问题。为处理长序列依赖和动态环境提供了新的 VLA 内部状态管理思路。

cs.RO 閱讀原文

Practical VLA 2026-05-23

Action with Visual Primitives

Weilong Guo et al. · 探索将视觉基元（Visual Primitives）直接映射到动作空间的方法，替代传统的端到端黑盒映射。提供了一种可解释性更强、可能更高效的 VLA 特征提取新路径。

cs.RO 閱讀原文

Practical VLA 2026-05-23

Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action

Pengteng Li et al. · 提出 SOMA 框架，通过显式空间记忆模块增强 VLA 在目标移出视野后的持续操作能力。解决了现有 VLA 对视觉可见性的过度依赖，提升了长程任务的鲁棒性。

cs.RO 閱讀原文

Practical VLA 2026-05-23

GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations

Wenxuan Guo et al. · 引入手势感知嵌入以解决文本指令的空间歧义性问题，丰富了 VLA 的多模态输入维度。为利用非语言肢体信号提升操作精度提供了可行的工程方案。

cs.RO 閱讀原文

Practical VLA 2026-05-23

Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts

Zhen Sun et al. · 提出运行时验证机制以检测并纠正 VLA 和世界模型生成的低质量动作轨迹。为提升 VLA 部署安全性提供了实用的后处理/监控策略，具有工程落地价值。

cs.RO 閱讀原文

Practical VLA 2026-05-23

Noise-Space Attribution and Control of Chunk-Boundary Artifact

Rui Wang · 深入分析并控制扩散策略中分块边界伪影的噪声机制，揭示了动作不连续的根源。为优化 Diffusion Policy 等生成式 VLA 模型的平滑性提供了关键理论洞见。

cs.RO 閱讀原文

Practical VLA 2026-05-23

DSSP: Diffusion State Space Policy with Full-History Encoding

Zhiyuan Guan et al. · 结合状态空间模型与全历史编码改进扩散策略，增强了对长时依赖的处理能力。为提升 VLA 在部分可观测环境下的表现提供了具体的模型架构优化方案。

cs.RO 閱讀原文

Practical VLA 2026-05-23

DISC: Decoupling Instruction from State-Conditioned Control via Policy Generation

Hanxiang Ren et al. · 通过策略生成解耦指令与状态条件，防止网络学习捷径从而提升泛化性。针对 VLA 中常见的指令泄露问题提出了有效的架构修正，具有明确的复用价值。

cs.AI 閱讀原文

Practical VLA 2026-05-23

Reinforcing VLAs in Task-Agnostic World Models

Yucen Wang et al. · 在无任务特定的世界模型中对 VLA 进行 RL 精调，避免高昂的真实交互成本。为 VLA 的后训练适应阶段提供了高效且通用的强化学习框架。

cs.AI 閱讀原文

Practical VLA 2026-05-23

CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models

Zhi Liu · 实现离散自回归与连续流匹配 VLA 范式间的跨范式后训练与推理优化。打破了不同 VLA 架构间的壁垒，为混合使用各类 SOTA 模型提供了灵活的技术路径。

cs.CV 閱讀原文

Practical VLA 2026-05-23

From Abstraction to Instantiation: Learning Behavioral Representation for Vision-Language-Action Model

Bing Hu et al. · 通过学习行为表征来缓解 VLA 在分布偏移下的性能下降，连接抽象指令与具体实例。为提升 VLA 的域外泛化能力提供了新的表征学习视角。

cs.CV 閱讀原文

Practical VLA 2026-05-23

WorldKV: Efficient World Memory with World Retrieval and Compression

Jung Yi et al. · 通过检索与压缩机制优化世界模型的记忆 KV Cache，解决长期一致性问题。为构建持久化、高效率的具身世界模型提供了关键的内存管理技术方案。

cs.CV 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-23

Learning Structural Latent Points for Efficient Visual Representations in Robotic Manipulation

提出结构化潜在点表示以优化机器人操作的视觉表征，解决隐式场缺乏结构线索的问题。属于感知层改进，非核心 VLA 架构或训练范式创新。

hf-papers 閱讀原文

Background VLA 2026-05-23

TacO: Benchmarking Tactile Sensors for Object Manipulation

Anya Zorin et al. · 发布 TacO 基准测试集，专门评估触觉传感器在物体操作中的性能。填补了触觉 VLA 领域缺乏标准化 benchmark 的空白，对多模态对齐研究有重要参考价值。

cs.RO 閱讀原文

Background VLA 2026-05-23

PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

Ziang Cao et al. · 生成具备物理属性的 3D 资产用于仿真，虽有助于数据合成，但主要贡献在于 3D 生成而非 VLA 模型本身。属于上游数据基础设施，非核心算法进展。

cs.RO 閱讀原文

Background VLA 2026-05-23

stable-worldmodel: A Platform for Reproducible World Modeling Research and Evaluation

Lucas Maes et al. · 提供世界模型研究的统一平台与评估协议，旨在解决代码库碎片化问题。作为工具型论文，对社区有价值但不包含新的 VLA 方法论突破。

cs.RO 閱讀原文

Background VLA 2026-05-23

SENIOR: Efficient Query Selection and Preference-Guided Exploration in Preference-based Reinforcement Learning

Hexian Ni et al. · 改进基于偏好强化学习中的查询选择与探索效率。虽然 RL 精调是 VLA 热点，但该工作未明确结合 VLA 架构或展示在具身任务上的具体应用效果。

cs.RO 閱讀原文

Background VLA 2026-05-23

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

Zhengyi Luo et al. · 专注于人形机器人的全身运动跟踪控制，侧重于底层运动策略而非高层视觉语言理解。属于传统机器人控制范畴，非 VLA 核心研究方向。

cs.RO 閱讀原文

Background VLA 2026-05-23

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

Yifan Xie et al. · 从大规模人类视频中学习操作先验以辅助机器人模仿学习。虽涉及视频数据利用，但重点在于意图解耦，未明确整合进主流 VLA 架构进行端到端验证。

cs.RO 閱讀原文

Background VLA 2026-05-23

Jointly Learning Predicates and Actions Enables Zero-Shot Skill Composition

Benedict Quartey et al. · 联合学习谓词与动作以实现技能的零样本组合，侧重符号 grounding 与逻辑推理。方法相邻但缺乏在标准 VLA benchmark 上的广泛对比，归为值得了解。

cs.AI 閱讀原文

Background VLA 2026-05-23

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

Andrew Choi et al. · 提出基于自监督动作排序的离线到在线 RL 方法。虽可用于 VLA 精调，但摘要未体现其在具身智能或 VLA 特定场景下的应用与优势，暂归为一般 RL 进展。

cs.AI 閱讀原文

Background VLA 2026-05-23

VLANeXt: Recipes for Building Strong VLA Models

Xiao-Ming Wu et al. · 总结构建强 VLA 模型的工程配方与最佳实践。属于经验性综述或指南，虽实用但缺乏新颖的理论架构或突破性实验结果，适合快速浏览。

cs.AI 閱讀原文

Background VLA 2026-05-23

COBALT: Crowdsourcing Robot Learning via Cloud-Based Teleoperation with Smartphones

Ayush Agarwal et al. · 提出基于智能手机的云端遥操作平台以众包收集机器人数据。主要贡献在于数据采集基础设施，虽对 VLA 数据瓶颈有帮助，但非算法层面创新。

cs.AI 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-23