2026-05-07 – 2026-05-20

VLA 双周深度推理

基于 VLA-Handbook 过去 14 天的 50 次 commit + 全系统分析上下文 | 2026-05-20

本期核心信号

领域正式跨越架构探索期，进入工程收敛阶段。language_grounding 以 1.57 加速度独家 SURGE，而 world_model (0.69) 与 diffusion_policy (0.42) 全面衰退，证明社区共识已转向“语言直接锚定动作”的务实路径。
动作头与后训练路线完成事实标准确立。Flow Matching (52篇, acc 0.79) 碾压 Diffusion Policy (22篇, acc 0.42)；RL Finetuning (55篇, acc 1.12) 彻底终结 Instruction Tuning (6篇, acc 0.25) 的物理控制幻想。
基准全面饱和掩盖真实泛化停滞。43次 SOTA 刷新集中于 CALVIN/LIBERO 系列，但评级分布显示仅 1.1% (4篇) 为突破性工作，近 70% 为增量改进或无效噪声，刷榜已触及理论天花板。

方法族动态

方法族趋势揭示出明确的“去伪存真”过程。language_grounding 在 7 日内产出 63 篇并以 1.57 加速度领跑，成为唯一 SURGE 方向，表明将自然语言指令直接映射为动作空间是突破视觉-动作瓶颈的最短路径。相反，依赖长序列预测的 world_model (加速度 0.69) 和 long_horizon (0.68) 持续失速，证明生成式规划在实时控制中的计算开销与延迟难以承受。在策略生成层面，Flow Matching 凭借 0.79 的加速度与 52 篇的绝对数量确立为新一代动作头标准，彻底取代了训练不稳定且推理缓慢的 Diffusion Policy。后训练阶段，RL Finetuning 以 1.12 的加速度和 55 篇的规模对 Instruction Tuning (0.25, 6篇) 形成降维打击，SFT 的静态映射天花板已现，基于奖励塑形与真实动力学交互的 RL 管线成为提升策略鲁棒性的唯一共识。

突破论文聚焦

MolmoAct2 (2026-05-06/12): 该工作首次将动作推理能力直接嵌入轻量级视觉语言模型，专为真实世界部署优化。它证明了无需庞大参数量，通过针对性的动作链推理微调，即可在复杂指令跟随任务中实现低延迟响应，为端侧 VLA 落地提供了可复用的架构模板。
DreamTacVLA (2026-05-08): 针对接触丰富操作，该模型引入“感知未来”机制，在触觉反馈发生前预测接触状态并提前调整策略。这一设计巧妙绕过了传统触觉传感器的高延迟瓶颈，将触觉信息从“事后修正”转化为“事前规划”，显著提升了精密装配任务的成功率。
Dexora (2026-05-20): 作为首个开源的高自由度双手协同 VLA，Dexora 填补了社区在复杂灵巧操作基准上的空白。其开放权重与训练管线直接降低了多指手控制的入门门槛，有望引发一波基于开源模型的灵巧手微调热潮。

跨信号关联

资本叙事与学术投票的背离：产业端 Jim Fan 高调宣告 VLA 已死并力推 World Action Models，但学术数据呈现反向运动：world_model 加速度仅 0.69 持续衰退，而 language_grounding 以 1.57 独家 SURGE。特斯拉 Q2 量产与众擎数亿融资倒逼策略快速落地，直接语言-动作映射比生成式世界模型更能满足低成本、高响应的工程需求，WAM 的学术热度正被更直接的指令跟随范式取代。
仿真疲劳与实机验证转向：尽管 MuJoCo、Genesis、Habitat 三大仿真引擎在两周内密集发布更新（v3.8.1/v.0.4.7/v0.3.4），但 sim_to_real 与 cross_embodiment 方法族却双双衰退（加速度分别为 0.17 和 0.21）。这表明社区已认清“渲染升级无法跨越长尾分布”的现实，研究重心正从“如何缩小仿真差距”转向“如何用真实数据与语言锚点直接训练策略”，仿真器正式沦为基础设施而非突破方向。

非显而易见的洞见

触觉研究的“降维成熟”：理论深挖高度聚焦触觉操作（DreamTacVLA、TouchGuide 等 5 篇），产业端触觉供应链同步爆发，但 tactile 方法族加速度仅 0.25 持续下滑。这并非背离，而是技术成熟的标志：触觉正从“待探索的算法课题”降维为“标准化硬件模块”。学界不再需要论证触觉的价值，而是将其视为默认输入与 language_grounding 融合。
基准饱和下的“务实投票”：CALVIN/LIBERO 全面见顶，但深挖论文密集转向亚毫米装配与实机部署。学界正集体放弃“刷榜”，转向解决长时程与移动操作的脆弱性，long_horizon 的衰退正是对“宏大规划不切实际”的无声投票。

技术收敛与分歧

技术栈正经历残酷的收敛：Flow Matching + RL 后训练 + 语言直接锚定已成为不可逆的“黄金三角”。分歧仅存在于数据获取路径：一派主张通过开源硬件与 RaaS 平台积累海量真实交互数据，另一派仍试图通过视频生成与合成数据绕过物理采集成本，但后者在加速度数据上已显颓势。

Benchmark 动态

活跃赛道高度集中于 CALVIN (14次) 与 LIBERO 系列 (14次)，但所有主流划分均已标记为「饱和」。43 次 SOTA 刷新的边际收益趋近于零，社区陷入内卷。真正的评估战场正悄然转移至 RoboCasa-GR1-Tabletop 与 RoboChallenge 等更具物理真实性的新基准，但尚未形成规模效应。

行动建议 ACTION BRIEF

如果你是 PI

算力重分配：立即削减 Diffusion Policy 与纯世界模型架构的预算，将团队全面转向 language_grounding + RL 后训练管线。加速度数据与产业量产节奏已明确指向指令跟随策略，这是唯一具备工程复利的技术栈。
触觉研究降维：停止纯触觉算法的纸上谈兵，直接采购商用传感器结合语言模型做端到端测试。触觉算法探索期已结束，语言引导的触觉操作才是当前高价值空白。
抢占实机评估标准：利用 Genesis 最新物理引擎构建面向“亚毫米装配”或“多机协同”的实机评估基准。社区正从仿真内卷转向实机验证，率先定义真实物理约束标准的研究组将掌握下一代 VLA 话语权。

平台与工具变动

MuJoCo 3.8.1：优化接触动力学求解器，为高自由度灵巧手操作提供更精确的物理反馈。
Genesis v.0.4.7：强化渲染效率与跨平台兼容性，继续巩固其作为主流 VLA 训练仿真底座的地位。
Habitat v0.3.4：更新导航与场景理解模块，虽未直接拉动 sim_to_real 热度，但为具身导航任务提供底层支撑。

注意 ATTENTION REQUIRED

知识缺口

当前数据无法准确量化 RL 后训练在真实机器人上的样本效率衰减率，学术界的奖励函数设计是否适配长尾物理交互仍存疑。此外，Flow Matching 在极低速精密操作（如亚毫米插入）中的稳定性缺乏跨平台对比数据，需等待更多实机复现报告。

本期预测

Flow Matching 将在 6 周内彻底取代 Diffusion Policy 成为开源 VLA 默认动作头。依据：加速度差距持续扩大 (0.79 vs 0.42) 且社区复现成本更低。
CALVIN/LIBERO 基准的 SOTA 刷新频率将在下月下降 50% 以上。依据：主流划分已饱和，边际收益归零，研究资金正流向实机验证与 RaaS 数据收集。
至少 2 家头部具身公司将在 Q3 前放弃纯视觉策略，标配触觉反馈模块。依据：产业端触觉供应链密集送样与 DreamTacVLA 等前瞻性工作的工程化落地窗口已开。