双周反思 | 2026-05-07 – 2026-05-20
读完没立场 = 这两周在消费而不在研究
Jim Fan 在红杉峰会上宣告"VLA 已死",力推 World Action Models。但本期数据呈现反向运动:language_grounding 以 1.57 加速度独家 SURGE,而 world_model 仅 0.69 持续衰退。学术社区在用论文投票——他们选择了直接语言锚定而非生成式世界模型。你认为 Jim Fan 的范式判断是前瞻性洞察,还是脱离学术实情的产业叙事?给出你的理由,不允许回答"两方面都有道理"。
本期 43 次 SOTA 刷新全部集中在 CALVIN 和 LIBERO 系列,但评级分布显示仅 1.1%(4 篇)为突破性工作,近 70% 为增量改进或无效噪声。当刷榜收益趋近于零,你认为是应该放弃这些基准转向 RoboCasa-GR1-Tabletop 等新平台,还是继续在上面榨取最后一点边际收益?你的团队会怎么做?
Flow Matching 以 52 篇碾压 Diffusion Policy 的 22 篇,加速度 0.79 vs 0.42。但本期 flow_matching 方法族在校准数据中已标记为"stable"而非"accelerating"——这意味着它可能正在从高速增长期转入平台期。你认为 Flow Matching 还能维持多久的统治地位?下一个替代者会是什么形态?
产业端触觉供应链密集爆发:安培龙六维力传感器切入特斯拉 Optimus 供应链,Genesis v0.4.7 新增触觉传感器,DreamTacVLA 验证触觉预规划。但 tactile 方法族加速度仅 0.25 持续下滑。这是技术成熟的标志还是研究热情消退?如果你现在还在做纯触觉算法,应该继续还是转向?
Figure 03 完成 77 小时不间断无人干预自主测试,智元远征 A3 累计产量突破 10,000 台,特斯拉 Optimus Gen3 Q2 量产线已下线。VLA 策略的工程化落地速度远超学术节奏。你认为学术界还有 6 个月的时间窗口来定义技术方向,还是已经沦为产业的技术追随者?
本期 3 篇论文(Legato、CoLA-Flow、GeCO)都用了 flow matching 做策略生成,但你能说清 flow matching 跟 diffusion policy 在数学本质上的区别吗?flow matching 学习的是确定性速度场 ODE,diffusion policy 学习的是随机微分方程 SDE——这决定了推理成本和轨迹平滑度的根本差异。如果不能,这是你这两周最该补的课。推荐阅读:Flow Matching for Generative Modeling (Lipman et al. 2023) 和 Diffusion Policy (Chi et al. 2023) 的原始论文,对比它们的训练目标和推理步骤。
Dexora 是首个开源的高自由度双手协同 VLA,填补了社区在复杂灵巧操作基准上的空白。但它用的是端到端 VLA 架构还是分层架构?双手协同中的自由度分配和冲突消解是怎么处理的?去读它的 arxiv:2605.18722,然后回答:如果让你基于 Dexora 做你的研究方向,你会从哪个模块切入?
UAM 论文(arxiv:2605.15735)揭示了 VLA 训练中的"embodiment tax"——微调 VLM 为 VLA 会系统性侵蚀其多模态能力。你的研究是否也在犯这个错误?去读这篇论文的双流架构设计,然后评估你当前使用的 VLA 模型是否也存在这个退化问题。