雙週報告 2026-05-20 — PULSAR

🤔

双周反思 | 2026-05-07 – 2026-05-20

读完没立场 = 这两周在消费而不在研究

///

1️⃣

Jim Fan 在红杉峰会上宣告"VLA 已死"，力推 World Action Models。但本期数据呈现反向运动：language_grounding 以 1.57 加速度独家 SURGE，而 world_model 仅 0.69 持续衰退。学术社区在用论文投票——他们选择了直接语言锚定而非生成式世界模型。你认为 Jim Fan 的范式判断是前瞻性洞察，还是脱离学术实情的产业叙事？给出你的理由，不允许回答"两方面都有道理"。

2️⃣

本期 43 次 SOTA 刷新全部集中在 CALVIN 和 LIBERO 系列，但评级分布显示仅 1.1%（4 篇）为突破性工作，近 70% 为增量改进或无效噪声。当刷榜收益趋近于零，你认为是应该放弃这些基准转向 RoboCasa-GR1-Tabletop 等新平台，还是继续在上面榨取最后一点边际收益？你的团队会怎么做？

3️⃣

Flow Matching 以 52 篇碾压 Diffusion Policy 的 22 篇，加速度 0.79 vs 0.42。但本期 flow_matching 方法族在校准数据中已标记为"stable"而非"accelerating"——这意味着它可能正在从高速增长期转入平台期。你认为 Flow Matching 还能维持多久的统治地位？下一个替代者会是什么形态？

4️⃣

产业端触觉供应链密集爆发：安培龙六维力传感器切入特斯拉 Optimus 供应链，Genesis v0.4.7 新增触觉传感器，DreamTacVLA 验证触觉预规划。但 tactile 方法族加速度仅 0.25 持续下滑。这是技术成熟的标志还是研究热情消退？如果你现在还在做纯触觉算法，应该继续还是转向？

5️⃣

Figure 03 完成 77 小时不间断无人干预自主测试，智元远征 A3 累计产量突破 10,000 台，特斯拉 Optimus Gen3 Q2 量产线已下线。VLA 策略的工程化落地速度远超学术节奏。你认为学术界还有 6 个月的时间窗口来定义技术方向，还是已经沦为产业的技术追随者？

///

🔬

本期 3 篇论文（Legato、CoLA-Flow、GeCO）都用了 flow matching 做策略生成，但你能说清 flow matching 跟 diffusion policy 在数学本质上的区别吗？flow matching 学习的是确定性速度场 ODE，diffusion policy 学习的是随机微分方程 SDE——这决定了推理成本和轨迹平滑度的根本差异。如果不能，这是你这两周最该补的课。推荐阅读：Flow Matching for Generative Modeling (Lipman et al. 2023) 和 Diffusion Policy (Chi et al. 2023) 的原始论文，对比它们的训练目标和推理步骤。

🔬

Dexora 是首个开源的高自由度双手协同 VLA，填补了社区在复杂灵巧操作基准上的空白。但它用的是端到端 VLA 架构还是分层架构？双手协同中的自由度分配和冲突消解是怎么处理的？去读它的 arxiv:2605.18722，然后回答：如果让你基于 Dexora 做你的研究方向，你会从哪个模块切入？

🔬

UAM 论文（arxiv:2605.15735）揭示了 VLA 训练中的"embodiment tax"——微调 VLM 为 VLA 会系统性侵蚀其多模态能力。你的研究是否也在犯这个错误？去读这篇论文的双流架构设计，然后评估你当前使用的 VLA 模型是否也存在这个退化问题。