Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR
针对 VLA 和 RLVR 训练中的谱失效问题,提出基于高通过滤的 Muon 优化器改进方案。为提升 VLA 训练稳定性和收敛速度提供了可复用的优化器配置建议。
针对 VLA 和 RLVR 训练中的谱失效问题,提出基于高通过滤的 Muon 优化器改进方案。为提升 VLA 训练稳定性和收敛速度提供了可复用的优化器配置建议。
Ayush Agarwal et al. · 推出 COBALT 平台,利用智能手机云端遥操作众包收集机器人演示数据。解决了 VLA 训练数据稀缺瓶颈,提供了一套可扩展的数据采集工程方案,具有直接应用价值。
Yixiang Zhu et al. · 针对 VLA 异步推理导致的预测-执行错位,提出基于流匹配的似然估计反事实微调方法 DEFLECT。显著提升了延迟鲁棒性,为部署 VLA 提供了具体的工程优化手段。
Peizheng Guo et al. · 提出规划感知策略优化 PAPO-VLA,通过闭环交互反馈优化 VLA 策略可靠性。引入了新的 RL 精调范式,有助于解决 VLA 在长程任务中的累积误差问题。
Jingzhou Luo et al. · 引入多一致性约束增强 VLA 对视觉变化和语言重述的鲁棒性。通过正则化手段提升泛化能力,为改善 VLA 在复杂环境下的稳定性提供了可复用的训练技巧。
Pietro Mazzaglia et al. · 探索结合思维链(CoT)与 VLA 的混合训练策略。旨在提升复杂任务处理能力,提供了 VLA 训练范式的另一种可能路径,具有实验参考价值。
Shuanghao Bai et al. · 提出 HEX 专家模块实现跨具身全身操控,解决人形机器人高自由度控制难题。针对双臂/全身协作这一前沿方向,提供了模块化架构思路,具有较高复用价值。
Tianyi Zhang et al. · 提出保守监督微调 ConSFT,防止流匹配 VLA 在微调中退化预训练能力。解决了 VLA 定制化过程中的灾难性遗忘痛点,提供即插即用的训练稳定方案。
Senthil Palanisamy et al. · 开源 MobileEgo 基础设施,利用商用硬件收集长时程第一人称数据。填补了高质量长序列 VLA 训练数据的空白,为社区提供了重要的数据资源。
Hrishikesh Sathyanarayan et al. · 利用 Stein 变分推断解决接触丰富操作中的分布鲁棒控制问题。虽涉及机器人操作,但侧重于控制理论方法,缺乏明确的 VLA 架构集成或大规模基准测试证据。
Anh-Quan Pham · 提出自动改进铰接物体仿真物理属性的方法,旨在解决 Sim2Real 中的物理参数缺失问题。属于仿真基础设施改进,对 VLA 数据生成有间接价值,但非核心算法进展。
Bosun Liang et al. · 提出隐式动作分块以解决强化学习中的高频振荡问题。虽与 VLA 的动作输出相关,但主要贡献在于控制平滑性,缺乏在主流 VLA 基准上的广泛验证。
Shintaro Nakaoka et al. · 针对导航基础模型提出深度条件微调方法 D-CLING。侧重于移动机器人的导航任务,与操作型 VLA 的核心关注点(灵巧操作)有一定距离,属相邻领域。
Dongjie Yu et al. · 利用瓶颈潜在强化学习在线修正预训练策略。虽涉及真实机器人实验,但主要贡献在于 RL 修正机制,未深入探讨 VLA 架构本身的创新或大规模基准对比。
Shuoqin Zhang et al. · 提出抗光照变化的人机协同强化学习方法 RoHIL。专注于特定环境扰动下的鲁棒性,实验规模和方法创新性不足以支撑更高评级,属具体场景优化。
He-Yang Xu et al. · 提出细粒度操作的诊断元评估框架,超越二元成功率指标。作为评估工具重要,但非 VLA 算法或架构的直接进展,归类为值得了解的基准/方法论工作。
Doguhuan Yeke et al. · 发布 RoboJailBench 基准,用于评估具身智能体的对抗攻击与防御。属于安全性基准建设,对 VLA 社区有价值,但无新算法或性能提升贡献。
Som Sagar et al. · 通过语义势场揭示机器人策略漏洞。侧重于故障诊断和安全分析,非 VLA 核心控制或训练方法的改进,属于辅助性研究。
Anh-Quan Pham et al. · 提出迭代组合数据生成方法以解决多物体、多环境下的数据稀缺问题。属于数据合成技术,虽有用但未在 VLA 核心基准上展示显著 SOTA 突破。
Qinwen Xu et al. · 利用数字孪生驱动强化学习进行真实世界操作。侧重 Sim2Real 流程工程,方法较为常规,缺乏 VLA 架构层面的新颖性或大规模基准验证。
Dillon Z. Chen et al. · 结合符号世界模型的双层策略学习用于长程规划。方法偏向传统规划与 RL 结合,未明确体现 VLA 的多模态大模型特性,属相邻研究方向。
Zhen Luo et al. · 提出 STABLE 系统生成符合语义和物理规律的桌面场景。服务于仿真数据生成,是 VLA 研究的配套工具,非核心算法进展。
Puyi Wang et al. · 提出 SceneCode 生成可编辑室内场景的程序表示。侧重于场景理解和生成,对 VLA 的环境建模有辅助作用,但非直接的操作策略改进。
Yiren Song et al. · 利用图像编辑实现稀疏世界建模以辅助具身任务。方法新颖但处于早期阶段,缺乏在标准 VLA 基准上的充分验证,暂归为值得了解。
Yifan Li et al. · 提出空间提示的视觉轨迹预测方法。虽涉及第一人称操作,但主要贡献在轨迹预测模块,未整合进完整的 VLA 端到端框架进行对比。
Wentang Chen et al. · 通过多模态语义解析可控合成室内场景。属于场景生成工具,对 VLA 训练数据扩充有帮助,但非 VLA 本体研究。
提出保真物理的世界模型用于视频生成。虽可用于模拟,但主要贡献在视频生成质量,未直接应用于 VLA 策略训练或控制闭环。
Xuan Cai et al. · 开发仿生离子热感受器用于机器人触觉感知。属于硬件传感器创新,虽对触觉 VLA 重要,但非算法或软件架构进展,归类为相关硬件新闻。
Caolu Xu et al. · 优化无线 XR 遥操作的通信速率以支持人形机器人 Sim2Real。属于系统工程优化,非 VLA 算法核心创新。
Ahmet H. G\"uzel et al. · 提出优先遗憾驱动优化以改进世界模型学习。侧重世界模型训练技巧,未明确结合 VLA 架构或在操作任务上验证,属相邻研究。
Sebastian Stapf et al. · 提出记忆专家组合以改进扩散世界模型。主要贡献在生成模型架构,与 VLA 控制策略的直接关联较弱。
Roman Kniazev et al. · 分析 Transformer 如何线性表示结构化世界模型。属机理可解释性研究,虽有趣但对 VLA 实际性能提升无直接指导意义。
Emmy Liu et al. · 发布 HalluWorld 基准评估幻觉问题。属评估工具,非 VLA 算法进展。
Thomas Delliaux et al. · 利用群结构潜空间学习抽象世界模型。属理论 RL/表示学习,未结合 VLA 或多模态大模型,应用路径不明确。