VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-06-09

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Robots Need More than VLA and World Models Elis Karcini et al. · 立场论文，批判单纯依赖数据扩展和模型放大的VLA范式，提出需结合其他智能形式。无具体算法或实验，属理论探讨。 CS.RO
PhyRoGen: Synthetic Generation of Physical Robot Manipulation Puzzles Using Procedural Content Generation Lennart Julian Droß et al. · 提出基于程序内容生成的物理拼图合成方法，解决操作技能学习的数据稀缺问题。提供可复用的数据生成工具，适用于提升VLA泛化能力。 CS.RO
What Matters When Cotraining Robot Manipulation Policies on Everyday Human Videos? [MIT|Agrawal] Richard Li et al. · 探究日常人类视频共训练对机器人策略的影响，揭示现有数据集偏差并验证普通视频的有效性。为利用大规模网络视频数据优化VLA提供实证指导。 CS.RO
AxisGuide: Grounding Robot Action Coordinate System in RGB Observations for Robust Visuomotor Manipulation Jiyun Jang et al. · 提出AxisGuide方法，在RGB观测中锚定动作坐标系以解决分布偏移下的执行失败。无需额外传感器，可直接集成到现有VLA推理流程中提升鲁棒性。 CS.RO
ActionMap: Robot Policy Learning via Voxel Action Heatmap Pei Yang et al. · 引入体素动作热力图作为VLA的动作解码器，替代传统单点预测，增强空间动作建模能力。代码开源可能性高，可直接替换现有VLA头部进行实验。 CS.RO
Task Editing for Generalizable 3D Visuomotor Policy Learning Jian-Jian Jiang et al. · 通过任务编辑技术提升3D视觉运动策略的泛化性，减少对大量真实演示数据的依赖。主要贡献在于仿真环境下的策略调整机制，缺乏真实机器人验证。 CS.RO
Coarse-to-Control: Action-Token Planning for Vision-Language-Action Models Jinhao Wu et al. · 提出分层规划架构，先 coarse 动作令牌规划再细粒度控制，缓解长视界任务误差累积。模块化设计易于嵌入现有VLA框架，提升复杂任务成功率。 CS.RO
QuadVerse: An Integrated Framework Aligning Visual-Physical Reality for Quadruped Simulation Yuxiang Chen et al. · 针对四足机器人的仿真框架，旨在缩小视觉-物理现实差距。虽涉及具身智能，但聚焦于腿式机器人仿真而非VLA操作策略，应用路径不直接。 CS.RO
Robotic Policy Adaptation via Weight-Space Meta-Learning Christian Bianchi et al. · 利用权重空间元学习实现VLA模型对新任务的快速适应，避免全量微调。提供高效的领域自适应方案，适合资源受限场景下的VLA部署。 CS.RO
RhinoVLA Technical Report Huixi Intelligence et al. · 技术报告，识别视觉和上下文Token为边缘部署延迟瓶颈，提出优化方案。提供具体的工程优化思路，有助于降低VLA推理成本，具备即时应用价值。 CS.RO
Spline Policy: A Structured Representation for Robot Policies [ETH|Ijspeert] Mengze Tian et al. · 提出样条策略表示法，增强动作的几何和时间结构。虽具创新性，但主要停留在理论分析和仿真验证，未展示在主流VLA基准上的显著优势。 CS.RO
AEGIS: A Backup Reflex for Physical AI Josef Chen · 引入激活探针早期预警机制作为物理AI的备份反射，防止长视界任务状态恶化。即插即用的安全模块，可增强现有VLA系统的鲁棒性和安全性。 CS.RO

2026-06-09

VLA 研究日報VLA 研究日报

18 篇 10 篇共 28 篇

🔧 技術技术

Practical VLA 2026-06-09

PhyRoGen: Synthetic Generation of Physical Robot Manipulation Puzzles Using Procedural Content Generation

Lennart Julian Droß et al. · 提出基于程序内容生成的物理拼图合成方法，解决操作技能学习的数据稀缺问题。提供可复用的数据生成工具，适用于提升VLA泛化能力。

cs.RO 閱讀原文

Practical VLA [MIT|Agrawal] 2026-06-09

What Matters When Cotraining Robot Manipulation Policies on Everyday Human Videos?

Richard Li et al. · 探究日常人类视频共训练对机器人策略的影响，揭示现有数据集偏差并验证普通视频的有效性。为利用大规模网络视频数据优化VLA提供实证指导。

cs.RO 閱讀原文

Practical VLA 2026-06-09

AxisGuide: Grounding Robot Action Coordinate System in RGB Observations for Robust Visuomotor Manipulation

Jiyun Jang et al. · 提出AxisGuide方法，在RGB观测中锚定动作坐标系以解决分布偏移下的执行失败。无需额外传感器，可直接集成到现有VLA推理流程中提升鲁棒性。

cs.RO 閱讀原文

Practical VLA 2026-06-09

ActionMap: Robot Policy Learning via Voxel Action Heatmap

Pei Yang et al. · 引入体素动作热力图作为VLA的动作解码器，替代传统单点预测，增强空间动作建模能力。代码开源可能性高，可直接替换现有VLA头部进行实验。

cs.RO 閱讀原文

Practical VLA 2026-06-09

Coarse-to-Control: Action-Token Planning for Vision-Language-Action Models

Jinhao Wu et al. · 提出分层规划架构，先 coarse 动作令牌规划再细粒度控制，缓解长视界任务误差累积。模块化设计易于嵌入现有VLA框架，提升复杂任务成功率。

cs.RO 閱讀原文

Practical VLA 2026-06-09

Robotic Policy Adaptation via Weight-Space Meta-Learning

Christian Bianchi et al. · 利用权重空间元学习实现VLA模型对新任务的快速适应，避免全量微调。提供高效的领域自适应方案，适合资源受限场景下的VLA部署。

cs.RO 閱讀原文

Practical VLA 2026-06-09

RhinoVLA Technical Report

Huixi Intelligence et al. · 技术报告，识别视觉和上下文Token为边缘部署延迟瓶颈，提出优化方案。提供具体的工程优化思路，有助于降低VLA推理成本，具备即时应用价值。

cs.RO 閱讀原文

Practical VLA 2026-06-09

AEGIS: A Backup Reflex for Physical AI

Josef Chen · 引入激活探针早期预警机制作为物理AI的备份反射，防止长视界任务状态恶化。即插即用的安全模块，可增强现有VLA系统的鲁棒性和安全性。

cs.RO 閱讀原文

Practical VLA 2026-06-09

LARA: Latent Action Representation Alignment for Vision-Language-Action Models

Mengya Liu et al. · 通过潜在动作表示对齐解决VLA数据稀缺问题，提升小样本学习能力。方法直接作用于VLA训练过程，代码若开源将极大促进低资源场景研究。

cs.RO 閱讀原文

Practical VLA 2026-06-09

ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models

Arash Akbari et al. · 提出动作引导的子4位量化方法，显著降低VLA模型计算负载。直接解决边缘部署痛点，量化方案具有高度可复用性，适合工程落地团队。

cs.AI 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-06-09

Robots Need More than VLA and World Models

Elis Karcini et al. · 立场论文，批判单纯依赖数据扩展和模型放大的VLA范式，提出需结合其他智能形式。无具体算法或实验，属理论探讨。

cs.RO 閱讀原文

Background VLA 2026-06-09

Task Editing for Generalizable 3D Visuomotor Policy Learning

Jian-Jian Jiang et al. · 通过任务编辑技术提升3D视觉运动策略的泛化性，减少对大量真实演示数据的依赖。主要贡献在于仿真环境下的策略调整机制，缺乏真实机器人验证。

cs.RO 閱讀原文

Background VLA 2026-06-09

QuadVerse: An Integrated Framework Aligning Visual-Physical Reality for Quadruped Simulation

Yuxiang Chen et al. · 针对四足机器人的仿真框架，旨在缩小视觉-物理现实差距。虽涉及具身智能，但聚焦于腿式机器人仿真而非VLA操作策略，应用路径不直接。

cs.RO 閱讀原文

Background VLA [ETH|Ijspeert] 2026-06-09

Spline Policy: A Structured Representation for Robot Policies

Mengze Tian et al. · 提出样条策略表示法，增强动作的几何和时间结构。虽具创新性，但主要停留在理论分析和仿真验证，未展示在主流VLA基准上的显著优势。

cs.RO 閱讀原文

Background VLA 2026-06-09

Chameleon: Control-Indexed Prospective Memory for Visuomotor Manipulation

Xinying Guo et al. · 提出控制索引的前瞻记忆机制，帮助机器人在延迟决策中保留关键信息。概念新颖，但摘要未明确其在标准VLA基准上的性能提升及复用性。

cs.RO 閱讀原文

Background VLA 2026-06-09

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Jindi Lv et al. · 结合视频生成世界模型与强化学习值函数，解决部分可观测性问题。侧重RL与WM结合，虽相关但非纯VLA架构改进，且缺乏实时操作证据。

cs.RO 閱讀原文

Background VLA 2026-06-09

GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

Kaichen Zhou et al. · 增强视频世界模型的几何一致性，提升长期预测的物理合理性。主要贡献在WM领域，对VLA的直接赋能路径不如动作解码器类论文清晰。

cs.RO 閱讀原文

Background VLA 2026-06-09

CHDP: Cooperative Hybrid Diffusion Policies for Reinforcement Learning in Parameterized Action Space

Bingyi Liu et al. · 针对混合动作空间的协同混合扩散策略，侧重RL算法改进。虽可用于机器人，但摘要未强调与VLA大模型的结合或特定操作场景优势。

cs.AI 閱讀原文

Background VLA 2026-06-09

GenPO++: Generative Policy Optimization with Jacobian-free Likelihood Ratios

Ke Hu et al. · 改进生成式策略优化的似然比估计方法，提升RL效率。属基础RL算法改进，未特指VLA或机器人操作场景，通用性强但针对性弱。

cs.LG 閱讀原文

Background VLA 2026-06-09

Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns

Dong Tian et al. · 提出分块Critic的SAC变体，利用Transformer建模轨迹上下文。属RL算法优化，未明确应用于VLA或具身操作，与当前VLA热点关联度较低。

cs.LG 閱讀原文

Background VLA 2026-06-09

STRIPS-WM: Learning Grounded Propositional STRIPS-style World Models from Images

Abhiroop Ajith et al. · 从图像中学习符号化的STRIPS风格世界模型，用于长期规划。连接感知与符号规划，但抽象层次较高，离端到端VLA实际操作尚有距离。

cs.RO 閱讀原文

Background VLA 2026-06-09

Where to Touch, How to Contact: Hierarchical RL-MPC Framework for Geometry-Aware Long-Horizon Dexterous Manipulation

Zhixian Xie et al. · 结合RL与MPC的层级框架处理灵巧操作中的接触动力学。虽涉及灵巧手，但侧重传统控制与RL结合，未体现VLA大模型的语义理解优势。

cs.RO 閱讀原文

Background VLA 2026-06-09

SERNF: Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows

Chenyu Yang et al. · 针对灵巧手策略的真实世界高效微调方法，结合动作分块Critic和归一化流。侧重RL微调效率，非VLA预训练或架构创新，应用范围较窄。

cs.RO 閱讀原文

Background VLA 2026-06-09

Latent Geometry Beyond Search: Amortizing Planning in World Models

Hoang Nguyen et al. · 探索世界模型中潜在几何结构的摊销规划，加速目标导向搜索。属WM理论深化，未直接关联VLA动作生成或机器人操作基准测试。

cs.RO 閱讀原文

Background VLA 2026-06-09

Expanding Spatial and Temporal Context for Robotic Imitation Learning With Scene Graphs

Jianing Qian et al. · 利用场景图扩展模仿学习的时空上下文，改善部分观测下的表现。方法有效但增量有限，且未明确在VLA大模型上的集成效果。

cs.RO 閱讀原文

Background VLA 2026-06-09

The Sim-to-Real Gap of Foundation Model Agents: A Unified MDP Perspective

Xiaoou Liu et al. · 从统一MDP视角分析基础模型代理的Sim-to-Real差距。综述性质文章，提供理论框架但无具体算法或实验突破，适合背景阅读。

cs.AI 閱讀原文

Background VLA 2026-06-09

Audio-Visual World Models: Grounding Multisensory Imagination for Embodied Agents

Jiahua Wang et al. · 构建音视频世界模型以增强具身代理的多感官想象能力。虽涉及多模态，但侧重感知与WM，未展示对VLA动作策略的直接提升或基准测试。

cs.CV 閱讀原文

Background VLA 2026-06-09

Bootstrap Theory of Representational Emergence: Explanatory Insufficiency as a Driver of Representation Learning and World Models

Jacques Raynal et al. · 表征涌现的理论研究，探讨解释不足如何驱动表示学习。纯理论工作，无具体机器人应用或VLA实验支撑。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-06-09