GEM: Generative Supervision Helps Embodied Intelligence
提出利用生成式监督信号增强 VLA 的语义-动作对齐,解决传统文本预训练与底层控制间的鸿沟。为提升 VLA 在复杂指令下的泛化能力提供了新的训练范式思路。
提出利用生成式监督信号增强 VLA 的语义-动作对齐,解决传统文本预训练与底层控制间的鸿沟。为提升 VLA 在复杂指令下的泛化能力提供了新的训练范式思路。
Brian Zhu et al. · 详细记录 VLA 在工业包装场景的真实部署流程、故障模式及改进经验。为工程团队提供宝贵的落地避坑指南和系统架构参考,具有极高的实操价值。
Kevin Lin et al. · 提出一种基于全身规划的人形机器人 loco-manipulation 数据生成方法,缓解真机演示数据稀缺问题。为人形机器人模仿学习提供了高效的数据合成工具,可直接复用。
Qiwei Wu et al. · 引入触觉和力反馈闭环机制,解决 VLA 在轻柔操作中对多模态触觉利用不足的问题。填补了触觉 VLA 方向空白,提供了具体的多模态融合方案。
Junlin Wang · 提出频域引导的动作扩散策略,通过在子频率流形上遍历来抑制人类演示中的高频噪声。为 Diffusion Policy 等生成式策略提供了有效的去噪优化手段。
Seungsu Kim et al. · 设计紧凑的 ProgVLA 模型,通过进度感知机制高效处理长序列多模态输入,适应资源受限场景。为边缘端 VLA 部署提供了轻量化架构参考。
Jiachen Zhang (Peking University et al. · 通过探针实验揭示冻结 VLA 策略中隐含的价值/成功估计结构,无需额外训练即可用于指导决策。为理解 VLA 内部表征和利用其潜在知识提供了新视角。
Yutai Li et al. · 提出 PrimitiveVLA,通过学习可复用的运动原语来解决直接指令微调的数据效率低和泛化差问题。提供了一种结构化 VLA 学习的新路径,有助于提升样本效率。
Krishnam Gupta · 通过黑盒动作监控发现不同 VLA 架构(VQ-BeT, Diffusion, ACT)具有特定的失败特征。为诊断和优化 VLA 模型提供了实用的分析工具和洞见。
Haoyun Liu et al. · 提出神经隐式动作场,将离散动作预测转化为连续函数建模,以更符合物理运动的连续性。为 VLA 动作头设计提供了新的数学框架和实现思路。
Wei Li et al. · 提出 CogVLA,通过指令驱动的路由和稀疏化机制降低 VLA 计算开销,实现认知对齐。为提升 VLA 推理效率和可扩展性提供了有效的工程优化方案。
Jiyuan Fu et al. · 揭示 VLA 模型易受视觉本体感觉劫持攻击的漏洞,并提出可迁移的补丁攻击方法。提高了社区对 VLA 安全性的认识,有助于开发防御机制。
Xinyu Wang et al. · 提出 Ω-QVLA,通过复合旋转和每步缩放实现 VLA 模型的鲁棒量化。显著降低模型部署成本,为边缘设备运行大型 VLA 提供了关键技术支撑。
Boxiang Qiu et al. · 基于 Genie Envisioner 构建闭环视频世界模拟器 GE-Sim 2.0,旨在通过大规模数据重训提升仿真真实性。属于仿真器/世界模型方向,虽重要但非直接 VLA 算法突破。
Hongyu Ding et al. · 针对具身导航任务,提出统一的语言-视觉-动作映射框架。侧重于移动机器人的导航而非灵巧操作,属于 VLA 相邻领域,应用路径相对特定。
Jeremy Morgan et al. · 发布 Colosseum V2 基准测试,旨在更严格地评估 VLA 模型的泛化能力。作为数据集/基准更新,对评估现有 SOTA 有价值,但本身无新算法贡献。
Yirui Sun et al. · 针对像素级世界动作模型(WAMs),提出状态自适应调度器以优化去噪过程中的动作条件。属于 WAM 内部机制改进,创新点较为具体但适用范围有限。
Kisang Park et al. · 提出基于自然函数梯度的轨迹优化方法,解决拥挤环境下的平滑运动生成问题。属于传统控制/优化范畴,未结合 VLA 大模型特性。
Yongchen Wang et al. · 将 VLA 应用于磁驱动微纳机器人双臂操作,探索特殊物理尺度下的控制。应用场景极为垂直小众,通用性较低。
Xucheng Wang et al. · 评估多种模仿学习策略在开放手术缝合辅助任务中的表现。属于医疗机器人特定应用,缺乏通用 VLA 架构或理论创新。
Jung Min Lee et al. · 通过跨视角重建学习以动作为中心的潜在表示,用于 VLA 预训练的伪标签生成。侧重于表征学习方法,对 VLA 性能提升的具体贡献需进一步验证。
Wuyang Luan et al. · arXiv:2604.05673v3 Announce Type: replace Abstract: Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into continuous, long-horizon action trajectories. While generative policies based on diffusion models and Schr\"odinger Bridges (SB) effectively capture multimodal action distributions, they require dozens of integration steps due to high-variance stochastic transport, posing a critical barrier for real-time robo
Sebastian Sanokowski et al. · 将扩散模型扩展至最大熵强化学习,优化策略轨迹分布采样。属于 RL 理论层面改进,未直接结合 VLA 架构或展示机器人操作实验。
Jaewoo Lee et al. · 提出 FAV 方法对齐少步生成模型,解决似然tractable假设限制。属于生成模型对齐理论,与 VLA 具体应用路径尚不明确。
Kunlin Cai et al. · 发布 What-If World 基准,评估具身场景中世界模型的因果推理能力。作为评估工具重要,但非算法本身进展。
Haiqian Yang et al. · 构建交互式架构材料的学习环境,探索世界模型在物理工程中的应用。属于交叉学科探索,与主流 VLA 操作任务差异较大。