2026-03-12 – 2026-03-25

VLA 双周深度推理

基于 VLA-Handbook 过去 14 天的 50 次 commit + 全系统分析上下文 | 2026-03-25

本期核心信号

language_grounding 红利吃完。14 天加速比 2.53x（全场最高），但 7 天加速比骤降至 0.46x——这是典型的「爆发后衰退」曲线。35 篇 7 天产出中无一篇新⚡论文，说明「推理时修复」红利已在 3 周内吃完。

flow_matching 静默胜出。ACTION HEAD 竞争中，flow_matching 与 diffusion_policy 产出持平（各 24 篇），但 flow_matching 加速比 0.89x > diffusion 0.70x，且是唯一 momentum stable 的方法族——这是静默的范式转移。

触觉方向结构性衰退。tactile 加速比 0.26x（全场倒数第二），7 天仅 5 篇论文，被 dexterous_hand(21 篇，0.62x) 以 4:1 碾压——学术圈在逃「硬件依赖」。

方法族动态

15 个方法族中 14 个处于衰退状态，仅 flow_matching 保持 stable。rl_finetuning(51 篇，0.52x) 对 instruction_tuning(4 篇，0.05x) 形成近 13:1 的压倒性优势——这不是技术优劣问题，是经济模型问题：当「Verification debt」揭示 AI 生成代码的隐藏成本时，RL 微调被视为「真正适应机制」。world_model(35 篇，0.75x) 虽为正增长但 momentum cooling，说明社区对「认知层收敛」的耐心正在耗尽。

突破论文聚焦

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation（3/25）

这是本期唯一涉及触觉的⚡论文，但路线与纯 tactile 研究不同——将触觉作为世界模型的输入模态而非独立任务。这验证了分析师 A 的判断：触觉方向若想存活，必须走「视触融合世界模型」路线。对于没有真实触觉传感器的团队，这是更务实的定位。

Fast-WAM: Do World Action Models Need Test-time Future Imagination?（3/19）

质疑世界模型是否需要测试时未来想象。这与 Chain of World(3/15)、Simulation Distillation(3/19) 形成对话——世界模型研究正在从「有没有用」转向「怎么用更高效」。对于考虑投入 world_model 方向的团队，这 3 篇论文提供了完整的决策框架。

You've Got a Golden Ticket: Improving Generative Robot Policies With A Single No（3/19）

单样本改进方向的代表作。6 篇⚡论文中 2 篇是 3/19 发布（另一篇是 Fast-WAM），说明「世界模型」和「单样本改进」是仅存的方向感。对于资源有限的小组，单样本改进是更现实的切入点。

跨信号关联

产业量产加速与学术硬件逃逸的温差。Tesla Optimus Gen 3 确认 2026 年底量产（3/17 Terafab Project 启动）、Ubtech 签署 10,000 台产能协议（3/16）、深圳机器人租赁价格降至数百元/天（3/18）——产业界在冲刺量产。但学术端 tactile(0.26x)、sim_to_real(0.31x)、cross_embodiment(0.26x) 全线衰退——学术圈在逃「硬件依赖」。这是一个危险的信号：当产业需要能部署的 VLA 模型时，学术界在刷饱和基准。

Rhoda AI 融资与 rl_finetuning 衰退的矛盾。Rhoda AI 获$4.5 亿 A 轮（3/11），专注于「基于数百万公开视频训练的机器人智能平台」——这是数据驱动的端到端路线。但学术端 rl_finetuning 加速比从 1.77x(14d) 降至 0.52x(7d)，momentum declining。资本在赌「视频数据 + 端到端」，学术在追「RL 微调 + 基准刷榜」——两者的技术路线正在分叉。

非显而易见的洞见

flow_matching 的胜出是工程选择，不是理论胜利。diffusion_policy 与 flow_matching 产出持平（各 24 篇），但 flow_matching 加速比更高（0.89x vs 0.70x）。原因很简单：flow matching 的采样效率和训练稳定性更优——这是工程师用脚投票的结果，不是理论证明的结果。当社区发现 flow matching「能用且好用」时，范式转移就发生了。

RoboChallenge 是机会还是陷阱？40 次 SOTA 变动中 RoboChallenge 仅 2 次（5%），是唯一未饱和的基准。但这可能是陷阱：低关注度可能意味着「场景太新无法标准化」或「数据获取成本过高」。建议先用 2 周时间调研 RoboChallenge 的数据获取难度，再决定是否投入。

技术收敛与分歧

执行层收敛（flow_matching 胜出、RL 微调主导），认知层发散（world_model 多路径探索）。这是一个健康的分化模式：执行层需要稳定性和效率，认知层需要灵活性和适应性。但危险在于：当产业需要「能部署的 VLA」时，学术界的认知层发散可能导致「可用版本」延迟。

Benchmark 动态

CALVIN 和 LIBERO 全线饱和（saturated），承包了 75% 的 SOTA 更新（40 次中 30 次）。当基准失去区分度，刷榜就变成内卷游戏。RoboChallenge 仅 2 次 SOTA 变动（5%），是唯一未饱和的基准——但需警惕「低关注度陷阱」。

行动建议 ACTION BRIEF

如果你是 PI

立即停止在 CALVIN/LIBERO 上投入刷榜算力。这两个基准已饱和，继续刷榜的边际收益趋近于零。如果组里已有 CALVIN 刷榜项目，建议 3 个月内完成收尾，将算力迁移到 RoboChallenge 或真实场景部署。否则后果：2027 年面临引用断崖。

触觉方向要么 All-in 硬件，要么转向 flow_matching。tactile 加速比 0.26x（全场倒数第二），7 天仅 5 篇论文——这是结构性衰退。如果组里没有真实触觉传感器（GelSight/DIGIT）和机器人平台，不如转向 flow_matching(0.89x，唯一 stable)。如果坚持做触觉，学 OmniVTA(3/25⚡论文) 的「视触融合世界模型」路线，把触觉作为世界模型的输入模态而非独立任务。

配置假设追踪机制。Active Assumptions 为空是系统性风险。分配 1 名工程师用 1 周时间配置至少 5 个核心假设：(1)「flow_matching 将取代 diffusion」；(2)「CALVIN/LIBERO 饱和后新基准将出现」；(3)「触觉将作为世界模型模态而非独立任务」；(4)「单样本改进将成为小团队主流方向」；(5)「2026 年底 VLA 量产部署将出现」。每个假设设定校准规则。否则原因：没有假设，就无法做战略决策——你是在赌，不是在管理。

平台与工具变动

MuJoCo 3.6.0(3/11)、Genesis v0.4.2(3/13)→v0.4.3(3/16) 连续发布——仿真工具链正在收敛。这是好消息（降低实验门槛）也是坏消息（可能加剧 sim_to_real 依赖）。建议团队在仿真实验中加入「sim-to-real gap 量化指标」，避免陷入「仿真 SOTA，现实惨败」的陷阱。

注意 ATTENTION REQUIRED

知识缺口

10 篇 Theory Deep Dives 中无一篇涉及「量产部署挑战」，但产业界已在冲刺量产（Tesla 2026 年底、Ubtech 10,000 台）。这是一个巨大的研究空白——谁先填补，谁就能定义「工业 VLA」标准。建议团队关注「部署成本」「维护周期」「故障率」等产业 KPI，而非基准分数。

本期预测

4 周内 flow_matching 跨域信号突破 3 条（当前 10 次提及，0 跨域输出）——diffusion 的政策迁移红利已在 3 周内吃完，flow_matching 将接棒。时间窗口：2026-04-22 前。

3 周内 CALVIN/LIBERO 新 SOTA 更新频率下降 50%（当前 40 次中 30 次）——饱和基准的边际收益递减将加速。时间窗口：2026-04-15 前。

6 周内至少 1 个新基准发布（RoboChallenge 或类似）——饱和基准的替代需求将催生新基准。时间窗口：2026-05-06 前。

3 周内触觉方向⚡论文再出 1 篇（当前 OmniVTA 是唯一）——视触融合世界模型路线将吸引跟进。时间窗口：2026-04-15 前。

///

FORECAST

Moltbot 自动提交：9 次 | 手动提交：41 次 | ⚡论文：5 篇 | 饱和基准：6 个