2026-03-26 – 2026-04-08

VLA 双周深度推理

基于 VLA-Handbook 过去 14 天的 50 次 commit + 全系统分析上下文 | 2026-04-08

本期核心信号

flow_matching 是唯一加速的方法族（accel_7d=1.41），同期乐聚万台产线、智元万台下线、Tesla Optimus Gen3 量产演示密集披露。这不是巧合——流匹配的单步生成特性在实时控制场景中比多步扩散更高效，当产业从「技术验证」转向「规模化交付」时，推理延迟成为硬约束。

CALVIN/LIBERO 全系列基准已饱和，但 41 次 SOTA 变动中 CALVIN 仍占 15 次。这意味着在标准基准上刷分的边际收益已趋近于零——MCIL、CORAL、ACoT-VLA 等最新模型的提升可能是过拟合而非泛化能力。

tactile/dexterous_hand 学术衰退但垂直场景商业化验证。tactile（accel_7d=0.44）和 dexterous_hand（accel_7d=0.58）都在衰退，但磅策医疗 AI 手术机器人已完成近 1000 台手术（4/4）。学术界追求通用基准上的 SOTA，产业界追求垂直场景的 ROI——两条路线正在分叉。

方法族动态

15 个方法族中仅 flow_matching 在加速（accel_7d=1.41，accel_14d=1.05），其余 14 个全部减速或持平。diffusion_policy 正在快速衰退（accel_7d=0.39，accel_14d=0.5），在 ACTION HEAD 竞争对中以 19 篇对 41 篇被 flow_matching 碾压。instruction_tuning 已事实死亡（accel_7d=0.0，count_7d=0），在 POST-TRAINING 竞争对中 rl_finetuning 以 63 篇对 4 篇的悬殊比例获胜——这验证了 VLA 的「指令微调」范式在 2026 年 Q1 已被证伪。world_model 正在追赶 rl_finetuning（53 篇 accel 0.87 vs 63 篇 accel 0.67），OmniVTA（⚡评级）的触觉 - 视觉世界建模成功说明多模态世界模型正在成为 VLA 的新范式。

突破论文聚焦

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation（3/25，⚡）。这是本期唯一将触觉与世界模型成功整合的工作，解决了接触丰富操作中的状态估计问题。在 tactile 方法族整体衰退（accel_7d=0.44）的背景下，OmniVTA 证明了触觉研究未死，只是需要从「通用基准」转向「接触丰富场景」。这篇论文的成功路径是：垂直场景（接触丰富操作）+ 多模态融合（视觉 - 触觉）+ 世界模型框架。

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models（3/25，⚡）。视觉提示作为 VLA 接口的尝试，在 language_grounding 提及 50 次但 declining 的背景下提供了新方向。核心贡献是将「理解指令」问题转化为「视觉提示匹配」问题，这恰好呼应了理想汽车 VLA 的范式转移——当 VLA 进入量产场景时，「执行精度」比「理解能力」更重要。

LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motives（3/28，⚡）。在 3d_representation 方法族衰退（accel_7d=0.15）的背景下，LaMP 证明了 3D 表示未死，只是需要新的形式——场景流作为潜在动机而非显式表示。这为 3D 表示研究提供了新路径：从「重建完整 3D 场景」转向「提取任务相关的 3D 运动线索」。

跨信号关联

flow_matching 加速与产业量产信号的滞后共振。flow_matching 是唯一加速的方法族（accel_7d=1.41），同期乐聚万台产线（3/30）、智元万台下线（3/30）、Tesla Optimus Gen3 量产演示（3/29）密集披露。流匹配的单步生成特性在实时控制场景中比多步扩散更高效，当产业从「技术验证」转向「规模化交付」时，推理延迟成为硬约束。学术界的 flow_matching 加速是产业量产需求的滞后反映，约 2-3 周延迟。

tactile/dexterous_hand 学术衰退与垂直场景商业化的温差。tactile（accel_7d=0.44）和 dexterous_hand（accel_7d=0.58）都在衰退，但磅策医疗 AI 手术机器人已完成近 1000 台手术（4/4）、优必选营收 20.01 亿元（+53.3%，4/2）。这说明触觉/灵巧手研究在「通用场景」衰退，但在「垂直场景」（如手术、工业）正在商业化。学术界追求通用基准上的 SOTA，产业界追求垂直场景的 ROI——两条路线正在分叉，2027 年可能出现「学术引用断崖但商业合同增长」的悖论。

非显而易见的洞见

flow_matching 是「做的人多、说的人少」。flow_matching 仅 11 次提及但 accel_7d=1.41，language_grounding 50 次提及但 accel_7d=0.67 且 declining。这说明 flow_matching 是工程师在用但不发论文（工程优先），language_grounding 是综述/讨论多但新突破少（论文优先）。学术提及次数与实际技术采用率正在脱钩——这是领域成熟的信号，但也意味着仅靠论文追踪会漏掉真正的技术前沿。

sim_to_real 作为「研究方法」衰退，但作为「工程工具」成熟。sim_to_real accel_7d=0.24 衰退中，但 Genesis 模拟器 3/29、4/5 连续两次更新（v0.4.4→v0.4.5）。这不是矛盾——当模拟器变成基础设施时，不再有人为此发论文，但大家都在用。sim_to_real 的论文衰退是领域成熟的信号，不是技术失效。这提示我们：追踪技术前沿不能仅靠论文，需要同时追踪开源工具更新频率。

技术收敛与分歧

技术正在收敛于 flow_matching + world_model 的组合，但在基准选择上出现分歧：一部分团队继续在 CALVIN/LIBERO 上刷分（边际收益趋零），另一部分转向 RoboCasa-GR1-Tabletop 或自建真实机器人平台。这种分歧将在 2027 年导致「两个 VLA 社区」——论文社区与工程社区。

Benchmark 动态

饱和赛道：CALVIN 全系列（ABC-D/ABCD-D/D-D）、LIBERO 全系列（non-standard/standard-closed/standard-opensource）已全部标记为 saturated。41 次 SOTA 变动中 CALVIN 占 15 次、LIBERO 占 8 次——这是在红海中内卷。

活跃赛道：RoboCasa-GR1-Tabletop（5 次 SOTA 变动，未饱和）、LIBERO Plus（7 次 SOTA 变动）、MetaWorld（4 次 SOTA 变动）。这些是相对安全的投资方向，但需警惕快速饱和风险。

行动建议 ACTION BRIEF

如果你是 PI

立即停止在 CALVIN/LIBERO 上刷分。这两个基准已全部 saturated，继续投入的计算资源边际收益趋近于零。转向 RoboCasa-GR1-Tabletop（5 次 SOTA 变动，未饱和）或自建真实机器人评测平台。否则后果：你的下一篇论文在审稿阶段会被质疑「基准选择过时」。

将 flow_matching 纳入 2026 年技术路线。diffusion_policy 的 accel_7d 仅 0.39 且持续下降，而 flow_matching 的 accel_7d 达 1.41。这不是「哪个更好」的学术问题，是「哪个会被社区继续支持」的生态问题。如果现在不布局，2027 年你的代码库将成为技术债务。

与医疗/工业合作伙伴共建垂直场景数据集。tactile 方法族 accel_7d=0.44 且 declining，但磅策医疗手术机器人已完成 1000 台手术验证商业化路径。继续追求通用触觉基准的论文将在 2027 年面临引用断崖，而垂直场景数据集可成为长期壁垒。

平台与工具变动

Genesis 模拟器 3/29 发布 v0.4.4，4/5 发布 v0.4.5——7 天内两次更新说明模拟器正在快速迭代。这是 sim_to_real 作为「工程工具」成熟的信号，建议追踪其更新日志以了解社区真实需求。

注意 ATTENTION REQUIRED

知识缺口

336 篇论文中仅 3 篇⚡（0.9%），但无法判断剩余 292 篇📖中有多少是「有复现价值但未达突破」的工作。建议引入中间评级（如🔬）以区分「可复现的增量工作」与「纯综述」。

flow_matching 仅 11 次提及但 accel_7d=1.41，说明有大量工程实践未进入论文系统。建议建立「工程实践追踪」机制，通过 GitHub 更新频率、开源社区讨论等非论文信号补充学术追踪盲区。

上期预测回顾

（无上期预测）

本期预测

6 周内至少 2 个顶级 VLA 团队将宣布采用 flow_matching 替代 diffusion_policy。推理依据：flow_matching accel_7d=1.41 且产业量产需求明确，diffusion_policy accel_7d=0.39 且持续下降。时间窗口：2026-05-20 前。

12 周内 CALVIN 基准将出现「SOTA 争议」——新模型声称突破但被质疑过拟合。推理依据：CALVIN 全系列 saturated 但仍有团队继续刷分，41 次 SOTA 变动中占 15 次。时间窗口：2026-07-01 前。

8 周内将出现首个「垂直场景触觉数据集」商业化发布（医疗或工业）。推理依据：tactile 学术衰退但磅策医疗 1000 台手术验证商业路径，垂直场景数据集是学术界尚未占领的生态位。时间窗口：2026-06-03 前。

4 周内 Genesis 模拟器将宣布与至少 1 个 VLA 团队深度合作。推理依据：7 天内两次更新（v0.4.4→v0.4.5）说明团队在快速迭代，sim_to_real 作为工程工具成熟需要标杆用户。时间窗口：2026-05-06 前。

///

FORECAST

Moltbot 自动提交：9 次
FORECAST

手动提交：41 次（涉及：CoMo：从互联网视频学习连续潜在运动、VLA 社交情报 | 2026-04-03、VLA 社交情报 | 2026-04-07）