VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-05-15

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

SECOND-Grasp: Semantic Contact-guided Dexterous Grasping 提出语义接触引导的灵巧抓取方法，结合物理稳定性与语义任务指导。虽涉及操作但缺乏VLA架构或大规模泛化实验，属于传统操作控制范畴。 HF-PAPER
What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models Yuanfang Peng et al. · 提出视觉鲁棒的RL微调方法，通过奖励设计抑制部署时的视觉偏移干扰。提供具体的RL微调策略，可直接用于提升现有VLA模型的鲁棒性。 CS.RO
Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models Zixing Lei et al. · 提出VLAs-as-Tools策略，将VLA作为工具对齐以解决长视界任务的规划与执行难题。为长视界具身代理提供了新的架构思路，具有明确的工程应用路径。 CS.RO
What Limits Vision-and-Language Navigation ? Yunheng Wang et al. · 分析VLN从仿真到真机部署的性能下降原因，主要归因于感知不稳定性。属于导航领域分析，虽相关但非VLA核心架构创新，且缺具体新算法。 CS.RO
BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning Ruiheng Wang et al. · 通过块扩散微调加速自回归VLA推理，降低延迟并减少误差累积。提供具体的加速方案，对需实时部署VLA的团队具有高复用价值。 CS.RO
RotVLA: Rotational Latent Action for Vision-Language-Action Model Qiwei Li et al. · 引入旋转潜在动作空间以改进LAMs在VLA预训练中的表现，解决离散动作空间的局限性。提供新的动作表示方法，有助于跨平台迁移和数据处理。 CS.RO
SID: Sliding into Distribution for Robust Few-Demonstration Manipulation Yicheng Ma et al. · 提出SID方法利用少量演示实现鲁棒操作，结合端到端策略与规划优化。虽有效但侧重传统操作控制，未明确结合VLA大模型架构，故归为值得了解。 CS.RO
CUBic: Coordinated Unified Bimanual Perception and Control Framework Xingyu Wang et al. · 提出双臂协调感知与控制框架，解决单臂到双臂扩展的挑战。侧重控制架构而非VLA语言对齐，虽重要但非VLA核心进展。 CS.RO
AttenA+: Rectifying Action Inequality in Robotic Foundation Models Daojie Peng et al. · 指出并修正基础模型中动作信息量不均的问题，提出新的训练范式以替代平坦的时间同质性假设。提供具体的注意力机制改进，可直接应用于VLA训练优化。 CS.RO
Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models Yiran Ling et al. · 提出GTA-VLA框架，允许用户通过视觉线索引导机器人策略，实现空间可导向的具身推理。增强VLA的交互性和可控性，提供新的推理范式。 CS.RO
FrameSkip: Learning from Fewer but More Informative Frames in VLA Training Bin Yu et al. · 提出FrameSkip策略，从密集演示中筛选高信息量帧进行训练，提高数据效率。提供简单有效的数据采样方法，可立即应用于VLA训练流程以节省算力。 CS.RO
RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data Harold Haodong Chen et al. · 通过规划器与模拟器协同进化解决数据稀缺问题，利用视频生成模型合成数据。侧重数据合成与仿真，虽相关但未直接改进VLA核心架构。 CS.RO

2026-05-15

VLA 研究日報VLA 研究日报

23 篇 10 篇共 33 篇

🔧 技術技术

Practical VLA 2026-05-15

What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models

Yuanfang Peng et al. · 提出视觉鲁棒的RL微调方法，通过奖励设计抑制部署时的视觉偏移干扰。提供具体的RL微调策略，可直接用于提升现有VLA模型的鲁棒性。

cs.RO 閱讀原文

Practical VLA 2026-05-15

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

Zixing Lei et al. · 提出VLAs-as-Tools策略，将VLA作为工具对齐以解决长视界任务的规划与执行难题。为长视界具身代理提供了新的架构思路，具有明确的工程应用路径。

cs.RO 閱讀原文

Practical VLA 2026-05-15

BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning

Ruiheng Wang et al. · 通过块扩散微调加速自回归VLA推理，降低延迟并减少误差累积。提供具体的加速方案，对需实时部署VLA的团队具有高复用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-15

RotVLA: Rotational Latent Action for Vision-Language-Action Model

Qiwei Li et al. · 引入旋转潜在动作空间以改进LAMs在VLA预训练中的表现，解决离散动作空间的局限性。提供新的动作表示方法，有助于跨平台迁移和数据处理。

cs.RO 閱讀原文

Practical VLA 2026-05-15

AttenA+: Rectifying Action Inequality in Robotic Foundation Models

Daojie Peng et al. · 指出并修正基础模型中动作信息量不均的问题，提出新的训练范式以替代平坦的时间同质性假设。提供具体的注意力机制改进，可直接应用于VLA训练优化。

cs.RO 閱讀原文

Practical VLA 2026-05-15

Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models

Yiran Ling et al. · 提出GTA-VLA框架，允许用户通过视觉线索引导机器人策略，实现空间可导向的具身推理。增强VLA的交互性和可控性，提供新的推理范式。

cs.RO 閱讀原文

Practical VLA 2026-05-15

FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

Bin Yu et al. · 提出FrameSkip策略，从密集演示中筛选高信息量帧进行训练，提高数据效率。提供简单有效的数据采样方法，可立即应用于VLA训练流程以节省算力。

cs.RO 閱讀原文

Practical VLA 2026-05-15

Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

Jiahui Niu et al. · 提出FLASH推测推理框架，解决扩散VLA的高延迟问题，实现实时部署。提供具体的工程优化方案，显著降低推理成本，极具实用价值。

cs.RO 閱讀原文

Practical VLA 2026-05-15

ALAM: Algebraically Consistent Latent Action Model for Vision-Language-Action Models

Zuojin Tang et al. · 提出代数一致的潜在动作模型ALAM，利用无标签视频数据增强VLA预训练。提供新的数据利用方式，有助于缓解动作标注数据稀缺问题。

cs.RO 閱讀原文

Practical VLA 2026-05-15

TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video

Jianyi Zhou et al. · 发布TouchAnything数据集及框架，从第一人称视频估计双臂触觉信息。填补触觉VLA数据空白，为多模态触觉对齐提供关键资源。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-05-15

SECOND-Grasp: Semantic Contact-guided Dexterous Grasping

提出语义接触引导的灵巧抓取方法，结合物理稳定性与语义任务指导。虽涉及操作但缺乏VLA架构或大规模泛化实验，属于传统操作控制范畴。

hf-papers 閱讀原文

Background VLA 2026-05-15

What Limits Vision-and-Language Navigation ?

Yunheng Wang et al. · 分析VLN从仿真到真机部署的性能下降原因，主要归因于感知不稳定性。属于导航领域分析，虽相关但非VLA核心架构创新，且缺具体新算法。

cs.RO 閱讀原文

Background VLA 2026-05-15

SID: Sliding into Distribution for Robust Few-Demonstration Manipulation

Yicheng Ma et al. · 提出SID方法利用少量演示实现鲁棒操作，结合端到端策略与规划优化。虽有效但侧重传统操作控制，未明确结合VLA大模型架构，故归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-05-15

CUBic: Coordinated Unified Bimanual Perception and Control Framework

Xingyu Wang et al. · 提出双臂协调感知与控制框架，解决单臂到双臂扩展的挑战。侧重控制架构而非VLA语言对齐，虽重要但非VLA核心进展。

cs.RO 閱讀原文

Background VLA 2026-05-15

RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data

Harold Haodong Chen et al. · 通过规划器与模拟器协同进化解决数据稀缺问题，利用视频生成模型合成数据。侧重数据合成与仿真，虽相关但未直接改进VLA核心架构。

cs.RO 閱讀原文

Background VLA 2026-05-15

D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models

Yucheng Guo et al. · 构建分布式异步RL框架以支持大规模VLA训练。侧重系统工程与训练基础设施，虽重要但非算法层面的核心突破，归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-05-15

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

Shivansh Patel et al. · 提出RIGVid系统，仅通过模仿AI生成视频进行复杂操作，无需物理演示。概念新颖但依赖视频生成质量，且缺乏真实机器人大规模验证，暂归为值得了解。

cs.RO 閱讀原文

Background VLA 2026-05-15

UniJEPA: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning

Jianke Zhang et al. · 结合JEPA架构统一连续与离散表征学习以增强机器人策略。侧重表征学习方法，虽与VLA相关但未明确展示其在多模态指令跟随上的优势。

cs.RO 閱讀原文

Background VLA 2026-05-15

Unify Robot Actions in Camera Frame

Sicheng Xie et al. · 提出基于相机帧的统一动作表示，解决跨平台学习中的语义不一致问题。侧重动作空间定义，虽为基础工作但缺乏VLA大模型层面的整合实验。

cs.RO 閱讀原文

Background VLA 2026-05-15

When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering

Jessie Yuan et al. · 提出不确定性感知的策略转向机制，通过验证器选择对齐任务的动作。侧重部署时的策略调整，虽有用但未深入VLA内部推理机制。

cs.RO 閱讀原文

Background VLA 2026-05-15

Block-wise Adaptive Caching for Accelerating Diffusion Policy

Kangye Ji et al. · 提出分块自适应缓存加速扩散策略推理，减少重复去噪步骤的计算开销。侧重Diffusion Policy的工程优化，虽高效但非VLA架构创新。

cs.RO 閱讀原文

Background VLA 2026-05-15

HetScene: Heterogeneity-Aware Diffusion for Dense Indoor Scene Generation

Zini Chen et al. · 提出异质性感知的扩散模型生成高密度室内场景，服务于具身AI仿真环境构建。属数据/仿真生成领域，非VLA核心算法。

cs.AI 閱讀原文

Background VLA 2026-05-15

AmaraSpatial-10K: A Spatially and Semantically Aligned 3D Dataset for Spatial Computing and Embodied AI

Mohammad Sadegh Salehi et al. · 发布AmaraSpatial-10K数据集，提供空间与语义对齐的3D资产。属重要资源贡献，但本身非方法论创新，归为值得了解。

cs.AI 閱讀原文

Background VLA 2026-05-15

FactoryNet: A Large-Scale Dataset toward Industrial Time-Series Foundation Models

Karim Othman et al. · 发布FactoryNet工业时间序列数据集，涵盖多种实体和任务。属数据资源，虽规模大但非VLA视觉-语言-动作核心进展。

cs.AI 閱讀原文

Background VLA 2026-05-15

MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware

Senthil Palanisamy et al. · 提出MobileEgo基础设施，利用商用硬件采集长视界第一人称数据。属数据收集工具/数据集，虽对VLA训练有价值但非算法创新。

cs.CV 閱讀原文

Background VLA 2026-05-15

Multi-Modal World Model for Physical Robot Interactions: Simultaneous Visual and Tactile Predictions for Enhanced Accuracy

Willow Mandil et al. · 提出多模态世界模型同时预测视觉与触觉，提升物理交互准确性。侧重世界模型与触觉融合，虽相关但未结合VLA语言指令层面。

cs.RO 閱讀原文

Background VLA 2026-05-15

ViTacFormer: Learning Cross-Modal Representation for Visuo-Tactile Dexterous Manipulation

Liang Heng et al. · 提出ViTacFormer学习视触跨模态表征以支持灵巧操作。侧重表征学习与触觉，未涉及VLA的语言指令遵循能力。

cs.RO 閱讀原文

Background VLA 2026-05-15

Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems

Mingwei Li et al. · 提出棱镜世界模型学习混合系统中的组合动力学，用于规划。侧重模型基强化学习与世界模型，非VLA核心架构。

cs.RO 閱讀原文

Background VLA 2026-05-15

Embodied Multi-Agent Coordination by Aligning World Models Through Dialogue

Vardhan Dongre et al. · 通过对话对齐世界模型以实现具身多智能体协作。侧重多智能体通信与协作，虽具身但未聚焦VLA单智能体的感知-行动映射。

cs.AI 閱讀原文

Background VLA 2026-05-15

DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions

Zongyue Li et al. · 提出扩散动作世界模型用于离线RL，通过动作推断转移。侧重离线RL与世界模型，未结合VLA的多模态指令理解。

cs.AI 閱讀原文

Background VLA 2026-05-15

JEDI: Joint Embedding Diffusion World Model for Online Model-Based Reinforcement Learning

Jing Yu Lim et al. · 提出JEDI联合嵌入扩散世界模型用于在线MBRL。侧重世界模型与RL，未结合VLA的语言指令输入。

cs.LG 閱讀原文

Background VLA 2026-05-15

Learning POMDP World Models from Observations with Language-Model Priors

Valentin Six et al. · 利用语言模型先验学习POMDP世界模型，侧重部分可观测环境下的建模。虽用LLM先验但未形成完整的VLA闭环控制。

cs.LG 閱讀原文

Background VLA 2026-05-15

Flow Matching for Offline Reinforcement Learning with Discrete Actions

Fairoz Nower Khan et al. · 将流匹配应用于离散动作的离线RL，扩展了生成策略的应用范围。侧重RL算法，未结合VLA多模态特性。

cs.LG 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-05-15