VLA 線 · 查看同日 AI 報告 →查看同日 AI 报告 →

2026-04-24

VLA 研究日報 Pulsar

LIVE

— AI 線今日無資料 —— AI 线今日无资料 —

VLA 線VLA 线 · cs.RO · cs.AI · cs.LG

Object-centric task representation and transfer using diffused orientation fields Cem Bilaloglu et al. · 提出基于扩散方向场的物体中心任务表示方法，用于提升任务迁移能力。属于传统机器人学习范畴，非当前 VLA 架构核心进展。 SCIENCE-
From autonomy to alliance: Robotic foundation models must learn with us, not just for us Sharmita Dey et al. · 一篇关于机器人基础模型人机协作范式的观点/综述文章。讨论理念而非具体 VLA 技术实现，无直接工程复用价值。 SCIENCE-
Boston Dynamics and Google DeepMind Teach Spot to Reason [DeepMind] Evan Ackerman · IEEE Spectrum 新闻报道，介绍 Boston Dynamics 与 DeepMind 合作让 Spot 具备推理能力。非学术论文，无技术细节可供复现。 IEEE-SPE
JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy Tianle Zhang et al. · 宣称解决数据多样性和跨具身泛化问题，但摘要缺乏具体架构创新或量化 SOTA 对比。疑似常规基线报告，需正文验证。 [💧灌水] CS.RO
LLM-Guided Safety Agent for Edge Robotics with an ISO-Compliant Perception-Compute-Control Architecture Xu Huang et al. · 提出基于 LLM 的边缘机器人安全代理，符合 ISO 标准。为 VLA 部署提供了明确的安全层工程方案，本周可集成至现有系统作为安全护栏。 CS.RO
Cortex 2.0: Grounding World Models in Real-World Industrial Deployment Adriana Aida et al. · 针对工业场景，通过世界模型增强 VLA 的长程执行可靠性。提供真实部署洞见，解决 VLA 反应式控制的瓶颈，具有明确的工程应用路径。 CS.RO
A Vision-Language-Action Model for Adaptive Ultrasound-Guided Needle Insertion and Needle Tracking Yuelin Zhang et al. · 将 VLA 应用于医疗超声引导穿刺。虽标题含 VLA，但属垂直领域特定应用，通用性受限，且医疗场景数据稀缺，难以直接迁移至通用操作。 CS.RO
Bimanual Robot Manipulation via Multi-Agent In-Context Learning Alessio Palma et al. · 利用多智能体上下文学习（ICL）实现双臂协作，无需微调即可使用文本 LLM 预测动作。为双臂操作提供低代码、零样本的新思路，极具实验价值。 CS.RO
Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models Shelly Francis-Meretzki et al. · 解决 VLA 在序列任务中的不确定性校准问题，引入时序差分校准方法。提升模型置信度评估的可靠性，对部署安全至关重要，方法可直接复用。 CS.RO
FingerEye: Continuous and Unified Vision-Tactile Sensing for Dexterous Manipulation Zhixuan Xu et al. · 提出 FingerEye 视觉-触觉统一感知框架，覆盖接触前中后全阶段。填补灵巧操作中连续触觉反馈的空白，为触觉 VLA 提供关键感知模块。 CS.RO
Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly Yongqiang Zhao et al. · 利用拆卸数据学习装配技能，结合视觉触觉。方法有趣但局限于 Peg-in-Hole 单一任务，缺乏通用 VLA 架构层面的贡献，属特定技巧。 CS.RO
PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance Yupeng Zheng et al. · 提出轻量级 PokeVLA，结合世界知识引导以弥补小模型空间意识不足。为边缘设备部署 VLA 提供可行方案，平衡效率与性能，具工程价值。 CS.RO

2026-04-24

VLA 研究日報VLA 研究日报

24 篇 15 篇共 39 篇

🔧 技術技术

Practical VLA 2026-04-24

LLM-Guided Safety Agent for Edge Robotics with an ISO-Compliant Perception-Compute-Control Architecture

Xu Huang et al. · 提出基于 LLM 的边缘机器人安全代理，符合 ISO 标准。为 VLA 部署提供了明确的安全层工程方案，本周可集成至现有系统作为安全护栏。

cs.RO 閱讀原文

Practical VLA 2026-04-24

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Adriana Aida et al. · 针对工业场景，通过世界模型增强 VLA 的长程执行可靠性。提供真实部署洞见，解决 VLA 反应式控制的瓶颈，具有明确的工程应用路径。

cs.RO 閱讀原文

Practical VLA 2026-04-24

Bimanual Robot Manipulation via Multi-Agent In-Context Learning

Alessio Palma et al. · 利用多智能体上下文学习（ICL）实现双臂协作，无需微调即可使用文本 LLM 预测动作。为双臂操作提供低代码、零样本的新思路，极具实验价值。

cs.RO 閱讀原文

Practical VLA 2026-04-24

Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models

Shelly Francis-Meretzki et al. · 解决 VLA 在序列任务中的不确定性校准问题，引入时序差分校准方法。提升模型置信度评估的可靠性，对部署安全至关重要，方法可直接复用。

cs.RO 閱讀原文

Practical VLA 2026-04-24

FingerEye: Continuous and Unified Vision-Tactile Sensing for Dexterous Manipulation

Zhixuan Xu et al. · 提出 FingerEye 视觉-触觉统一感知框架，覆盖接触前中后全阶段。填补灵巧操作中连续触觉反馈的空白，为触觉 VLA 提供关键感知模块。

cs.RO 閱讀原文

Practical VLA 2026-04-24

PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

Yupeng Zheng et al. · 提出轻量级 PokeVLA，结合世界知识引导以弥补小模型空间意识不足。为边缘设备部署 VLA 提供可行方案，平衡效率与性能，具工程价值。

cs.RO 閱讀原文

Practical VLA 2026-04-24

OmniUMI: Towards Physically Grounded Robot Learning via Human-Aligned Multimodal Interaction

Shaqi Luo et al. · 扩展 UMI 接口，引入物理交互信号以对齐人类多模态互动。解决现有 UMI 仅依赖视觉轨迹的物理缺失问题，为数据采集和训练提供新范式。

cs.RO 閱讀原文

Practical VLA 2026-04-24

HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation

Zijian Zeng et al. · 针对 VLA 长程任务失败问题，提出 HELM 记忆增强机制。不单纯依赖上下文长度，而是结构化记忆，显著提升长程规划能力，值得精读。

cs.AI 閱讀原文

Practical VLA 2026-04-24

Gated Memory Policy

Yihuai Gao et al. · 提出门控记忆策略以自适应处理马尔可夫与非马尔可夫任务。简单有效的架构改进，解决历史信息利用难题，易于集成到现有 VLA 中。

cs.AI 閱讀原文

Practical VLA 2026-04-24

VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

Jean Mercat et al. · 开源 VLA Foundry 框架，统一 LLM/VLM/VLA 训练流程。解决现有工具链碎片化问题，极大降低 VLA 研发门槛，本周即可用于复现和训练。

cs.AI 閱讀原文

Practical VLA 2026-04-24

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Boyu Chen et al. · 提出统一物理语言 UniT，桥接人类数据与人形机器人策略学习。解决跨具身形态的运动学失配问题，为利用大规模人类视频数据提供新路径。

cs.AI 閱讀原文

Practical VLA 2026-04-24

PhysMem: Scaling Test-time Physical Memory for Robot Manipulation

Haoyang Li et al. · 提出 PhysMem 在测试时扩展物理记忆，使 VLM 规划器能动态推断摩擦/稳定性等物理属性。增强 VLA 对未知物体的物理理解，方法具创新性。

cs.AI 閱讀原文

Practical VLA 2026-04-24

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

Yiyang Du et al. · 提出 EmbodiedMidtrain 中间训练阶段，将通用 VLM 适配至具身域。解决直接微调效果不佳的问题，提供高效的 VLA 初始化新范式，值得尝试。

cs.CV 閱讀原文

Practical VLA 2026-04-24

ETac: A Lightweight and Efficient Tactile Simulation Framework for Learning Dexterous Manipulation

Zhe Xu et al. · 提出 ETac 轻量级触觉仿真框架，平衡保真度与效率。解决触觉策略学习中的数据瓶颈，为触觉 VLA 训练提供高效仿真环境，立即可用。

cs.RO 閱讀原文

Practical VLA 2026-04-24

Mask World Model: Predicting What Matters for Robust Robot Policy Learning

Yunfan Lou et al. · 提出 Mask World Model，通过掩码预测关注关键物理变化而非全像素 RGB。减少过拟合，提升策略鲁棒性，为世界模型训练提供新视角。

cs.RO 閱讀原文

📖 背景閱讀背景阅读

Background VLA 2026-04-24

Object-centric task representation and transfer using diffused orientation fields

Cem Bilaloglu et al. · 提出基于扩散方向场的物体中心任务表示方法，用于提升任务迁移能力。属于传统机器人学习范畴，非当前 VLA 架构核心进展。

Science-Robotics 閱讀原文

Background VLA 2026-04-24

From autonomy to alliance: Robotic foundation models must learn with us, not just for us

Sharmita Dey et al. · 一篇关于机器人基础模型人机协作范式的观点/综述文章。讨论理念而非具体 VLA 技术实现，无直接工程复用价值。

Science-Robotics 閱讀原文

Background VLA [DeepMind] 2026-04-24

Boston Dynamics and Google DeepMind Teach Spot to Reason

Evan Ackerman · IEEE Spectrum 新闻报道，介绍 Boston Dynamics 与 DeepMind 合作让 Spot 具备推理能力。非学术论文，无技术细节可供复现。

ieee-spectrum-robotics 閱讀原文

Background VLA 2026-04-24

JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy

Tianle Zhang et al. · 宣称解决数据多样性和跨具身泛化问题，但摘要缺乏具体架构创新或量化 SOTA 对比。疑似常规基线报告，需正文验证。 [💧灌水]

cs.RO 閱讀原文

Background VLA 2026-04-24

A Vision-Language-Action Model for Adaptive Ultrasound-Guided Needle Insertion and Needle Tracking

Yuelin Zhang et al. · 将 VLA 应用于医疗超声引导穿刺。虽标题含 VLA，但属垂直领域特定应用，通用性受限，且医疗场景数据稀缺，难以直接迁移至通用操作。

cs.RO 閱讀原文

Background VLA 2026-04-24

Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly

Yongqiang Zhao et al. · 利用拆卸数据学习装配技能，结合视觉触觉。方法有趣但局限于 Peg-in-Hole 单一任务，缺乏通用 VLA 架构层面的贡献，属特定技巧。

cs.RO 閱讀原文

Background VLA 2026-04-24

Rodrigues Network for Learning Robot Actions

Jialiang Zhang et al. · 引入 Rodrigues 网络以体现关节运动学的归纳偏置。属于底层动作表示优化，虽有益但非 VLA 核心架构突破，对整体范式影响有限。

cs.RO 閱讀原文

Background VLA 2026-04-24

MATT-Diff: Multimodal Active Target Tracking by Diffusion Policy

Saida Liu et al. · 结合扩散策略进行多模态主动目标跟踪。主要关注移动机器人的感知与控制闭环，非典型的操作型 VLA，与主流 VLA benchmark 关联度低。

cs.RO 閱讀原文

Background VLA 2026-04-24

Evolvable Embodied Agent for Robotic Manipulation via Long Short-Term Reflection and Optimization

Jianzong Wang et al. · 提出通过长短时反思与优化实现具身智能体的演化。概念新颖但摘要未展示具体 VLA 架构整合或基准测试优势，偏向理论探索。

cs.RO 閱讀原文

Background VLA 2026-04-24

RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation

Feng Jiang et al. · 发布首个评估机器人操作中世界模型的基准 RoboWM-Bench。区分视觉逼真度与物理合理性，对世界模型研究具有重要参考价值，但本身非方法论文。

cs.AI 閱讀原文

Background VLA 2026-04-24

FASTER: Value-Guided Sampling for Fast RL

Perry Dong et al. · 提出值引导采样加速 RL 测试时缩放。虽提及 RL，但未明确与 VLA 预训练/微调的结合点，更偏向通用 RL 加速，与 VLA 核心距离稍远。

cs.AI 閱讀原文

Background VLA 2026-04-24

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

Zifan Xu et al. · 从不完美的行为先验中学习可扩展的 Sim-to-Real 专家策略。侧重数据生成与 RL 微调，虽有用但非 VLA 预训练或架构核心，属辅助技术。

cs.AI 閱讀原文

Background VLA 2026-04-24

ARM: Advantage Reward Modeling for Long-Horizon Manipulation

Yiming Mao et al. · 提出优势奖励建模 ARM 以解决长程操作的稀疏奖励问题。属于 RL 奖励设计层面，虽有助于 VLA 精调，但非 VLA 本体架构创新。

cs.AI 閱讀原文

Background VLA 2026-04-24

If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems

Jiamin Chang et al. · 研究视觉注入攻击对 VLA 代理系统的信任边界混淆及缓解措施。聚焦安全性/对抗攻击，虽重要但非提升 VLA 操作能力的核心方法。

cs.CV 閱讀原文

Background VLA 2026-04-24

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Hyeonwoo Kim et al. · 利用合成视频模仿学习灵巧的人-物交互。依赖视频生成模型，缺乏真实机器人数据验证，属仿真/合成数据研究方向，通用性待考。

cs.CV 閱讀原文

Background VLA 2026-04-24

Closed-loop tactile-visual interactivity via chip-free luminescent fibers enabled by capacitive coupling

Xun-En Wu et al. · 硬件传感器研究：基于电容耦合的无芯片发光纤维触觉-视觉交互。属新型触觉传感硬件，虽对触觉 VLA 有潜在价值，但非算法/模型层进展。

Science-Advances 閱讀原文

Background VLA 2026-04-24

A time-stamping tactile sensor enabled by pseudoconductive interface design at dielectric heterojunctions

Byungseok Seo et al. · 硬件传感器研究：介电异质结伪导电界面设计的时间戳触觉传感器。纯硬件创新，不涉及 VLA 算法或数据处理流程。

Science-Advances 閱讀原文

Background VLA 2026-04-24

VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation

Qianxi Hua et al. · 发布 VTouch++ 数据集，包含视觉增强触觉的双臂操作数据。重要数据资源，但本身非方法论文。对填补双臂触觉数据空白有价值。

cs.RO 閱讀原文

Background VLA 2026-04-24

CubeDAgger: Interactive Imitation Learning for Dynamic Systems with Efficient yet Low-risk Interaction

Taisuke Kobayashi · 提出 CubeDAgger 交互式模仿学习算法，降低专家负担。属经典 IL 算法改进，未明确结合 VLA 大模型特性，与当前 VLA 热点距离较远。

cs.RO 閱讀原文

Background VLA 2026-04-24

CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

Tianle Zeng et al. · 构建空地协同仿真基础设施 CARLA-Air。虽涉及具身智能，但侧重无人机与地面车协同，非典型的操作型 VLA 平台。

cs.RO 閱讀原文

Background VLA 2026-04-24

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Vin Bhaskara et al. · 提出 Curiosity-Critic 作为世界模型训练的内在奖励，基于累积预测误差改善。属自监督学习/世界模型训练技巧，非 VLA 核心架构。

cs.AI 閱讀原文

Background VLA 2026-04-24

Safety-Critical Contextual Control via Online Riemannian Optimization with World Models

Tongxin Li · 结合世界模型与黎曼优化进行安全关键控制。侧重控制理论与优化，虽用到世界模型，但非端到端 VLA 决策范式。

cs.AI 閱讀原文

Background VLA 2026-04-24

Cloning Deterministic Worlds: The Critical Role of Latent Geometry in Long-Horizon World Models

Zaishuo Xia et al. · 分析世界模型中潜几何对长程克隆确定性世界的作用。理论分析为主，探讨世界模型内部表征性质，对 VLA 间接相关。

cs.AI 閱讀原文

Background VLA 2026-04-24

X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference

Yixiao Zeng et al. · 提出 X-Cache 加速自回归世界模型推理。虽提及自动驾驶世界模型，但本质是系统工程/推理优化，非 VLA 算法创新。

cs.CV 閱讀原文

首頁首页 / VLA 日報VLA 日报 / 2026-04-24