VLA 双周深度推理
基于 VLA-Handbook 过去 14 天的 50 次 commit + 全系统分析上下文 | 2026-05-20
本期核心信号
- 领域正式跨越架构探索期,进入工程收敛阶段。
language_grounding以 1.57 加速度独家 SURGE,而world_model(0.69) 与diffusion_policy(0.42) 全面衰退,证明社区共识已转向“语言直接锚定动作”的务实路径。 - 动作头与后训练路线完成事实标准确立。Flow Matching (52篇, acc 0.79) 碾压 Diffusion Policy (22篇, acc 0.42);RL Finetuning (55篇, acc 1.12) 彻底终结 Instruction Tuning (6篇, acc 0.25) 的物理控制幻想。
- 基准全面饱和掩盖真实泛化停滞。43次 SOTA 刷新集中于 CALVIN/LIBERO 系列,但评级分布显示仅 1.1% (4篇) 为突破性工作,近 70% 为增量改进或无效噪声,刷榜已触及理论天花板。
方法族动态
方法族趋势揭示出明确的“去伪存真”过程。language_grounding 在 7 日内产出 63 篇并以 1.57 加速度领跑,成为唯一 SURGE 方向,表明将自然语言指令直接映射为动作空间是突破视觉-动作瓶颈的最短路径。相反,依赖长序列预测的 world_model (加速度 0.69) 和 long_horizon (0.68) 持续失速,证明生成式规划在实时控制中的计算开销与延迟难以承受。在策略生成层面,Flow Matching 凭借 0.79 的加速度与 52 篇的绝对数量确立为新一代动作头标准,彻底取代了训练不稳定且推理缓慢的 Diffusion Policy。后训练阶段,RL Finetuning 以 1.12 的加速度和 55 篇的规模对 Instruction Tuning (0.25, 6篇) 形成降维打击,SFT 的静态映射天花板已现,基于奖励塑形与真实动力学交互的 RL 管线成为提升策略鲁棒性的唯一共识。
突破论文聚焦
- MolmoAct2 (2026-05-06/12): 该工作首次将动作推理能力直接嵌入轻量级视觉语言模型,专为真实世界部署优化。它证明了无需庞大参数量,通过针对性的动作链推理微调,即可在复杂指令跟随任务中实现低延迟响应,为端侧 VLA 落地提供了可复用的架构模板。
- DreamTacVLA (2026-05-08): 针对接触丰富操作,该模型引入“感知未来”机制,在触觉反馈发生前预测接触状态并提前调整策略。这一设计巧妙绕过了传统触觉传感器的高延迟瓶颈,将触觉信息从“事后修正”转化为“事前规划”,显著提升了精密装配任务的成功率。
- Dexora (2026-05-20): 作为首个开源的高自由度双手协同 VLA,Dexora 填补了社区在复杂灵巧操作基准上的空白。其开放权重与训练管线直接降低了多指手控制的入门门槛,有望引发一波基于开源模型的灵巧手微调热潮。
跨信号关联
- 资本叙事与学术投票的背离:产业端 Jim Fan 高调宣告 VLA 已死并力推 World Action Models,但学术数据呈现反向运动:
world_model加速度仅 0.69 持续衰退,而language_grounding以 1.57 独家 SURGE。特斯拉 Q2 量产与众擎数亿融资倒逼策略快速落地,直接语言-动作映射比生成式世界模型更能满足低成本、高响应的工程需求,WAM 的学术热度正被更直接的指令跟随范式取代。 - 仿真疲劳与实机验证转向:尽管 MuJoCo、Genesis、Habitat 三大仿真引擎在两周内密集发布更新(v3.8.1/v.0.4.7/v0.3.4),但
sim_to_real与cross_embodiment方法族却双双衰退(加速度分别为 0.17 和 0.21)。这表明社区已认清“渲染升级无法跨越长尾分布”的现实,研究重心正从“如何缩小仿真差距”转向“如何用真实数据与语言锚点直接训练策略”,仿真器正式沦为基础设施而非突破方向。
非显而易见的洞见
- 触觉研究的“降维成熟”:理论深挖高度聚焦触觉操作(DreamTacVLA、TouchGuide 等 5 篇),产业端触觉供应链同步爆发,但
tactile方法族加速度仅 0.25 持续下滑。这并非背离,而是技术成熟的标志:触觉正从“待探索的算法课题”降维为“标准化硬件模块”。学界不再需要论证触觉的价值,而是将其视为默认输入与language_grounding融合。 - 基准饱和下的“务实投票”:CALVIN/LIBERO 全面见顶,但深挖论文密集转向亚毫米装配与实机部署。学界正集体放弃“刷榜”,转向解决长时程与移动操作的脆弱性,
long_horizon的衰退正是对“宏大规划不切实际”的无声投票。
技术收敛与分歧
技术栈正经历残酷的收敛:Flow Matching + RL 后训练 + 语言直接锚定已成为不可逆的“黄金三角”。分歧仅存在于数据获取路径:一派主张通过开源硬件与 RaaS 平台积累海量真实交互数据,另一派仍试图通过视频生成与合成数据绕过物理采集成本,但后者在加速度数据上已显颓势。
Benchmark 动态
活跃赛道高度集中于 CALVIN (14次) 与 LIBERO 系列 (14次),但所有主流划分均已标记为「饱和」。43 次 SOTA 刷新的边际收益趋近于零,社区陷入内卷。真正的评估战场正悄然转移至 RoboCasa-GR1-Tabletop 与 RoboChallenge 等更具物理真实性的新基准,但尚未形成规模效应。
如果你是 PI
- 算力重分配:立即削减 Diffusion Policy 与纯世界模型架构的预算,将团队全面转向
language_grounding+ RL 后训练管线。加速度数据与产业量产节奏已明确指向指令跟随策略,这是唯一具备工程复利的技术栈。 - 触觉研究降维:停止纯触觉算法的纸上谈兵,直接采购商用传感器结合语言模型做端到端测试。触觉算法探索期已结束,语言引导的触觉操作才是当前高价值空白。
- 抢占实机评估标准:利用 Genesis 最新物理引擎构建面向“亚毫米装配”或“多机协同”的实机评估基准。社区正从仿真内卷转向实机验证,率先定义真实物理约束标准的研究组将掌握下一代 VLA 话语权。
平台与工具变动
- MuJoCo 3.8.1:优化接触动力学求解器,为高自由度灵巧手操作提供更精确的物理反馈。
- Genesis v.0.4.7:强化渲染效率与跨平台兼容性,继续巩固其作为主流 VLA 训练仿真底座的地位。
- Habitat v0.3.4:更新导航与场景理解模块,虽未直接拉动
sim_to_real热度,但为具身导航任务提供底层支撑。
知识缺口
当前数据无法准确量化 RL 后训练在真实机器人上的样本效率衰减率,学术界的奖励函数设计是否适配长尾物理交互仍存疑。此外,Flow Matching 在极低速精密操作(如亚毫米插入)中的稳定性缺乏跨平台对比数据,需等待更多实机复现报告。
本期预测
- Flow Matching 将在 6 周内彻底取代 Diffusion Policy 成为开源 VLA 默认动作头。依据:加速度差距持续扩大 (0.79 vs 0.42) 且社区复现成本更低。
- CALVIN/LIBERO 基准的 SOTA 刷新频率将在下月下降 50% 以上。依据:主流划分已饱和,边际收益归零,研究资金正流向实机验证与 RaaS 数据收集。
- 至少 2 家头部具身公司将在 Q3 前放弃纯视觉策略,标配触觉反馈模块。依据:产业端触觉供应链密集送样与 DreamTacVLA 等前瞻性工作的工程化落地窗口已开。