双周反思 | 2026-04-09 – 2026-04-22
读完没立场 = 这两周在消费而不在研究
连续 15 天社交情报无顶级实验室信号,同期产业端千寻 30 天 30 亿融资、智元 GO-2 发布、特斯拉 Optimus 上海量产线确认、逐际动力开源 FluxVLA Engine。学术界 12 个方法族全面减速,仅 multi_task 在加速(1.28x),57.2% 的论文是增量变体。你认为这是"学术在消化前期突破"还是"学术已经失去方向感,被产业资本拖着走"?给出你的判断依据。
flow_matching 以 41 篇对 12 篇碾压 diffusion_policy,rl_finetuning 以 46 篇对 3 篇终结 SFT 在动作头训练中的统治。但本期 flow_matching 自身也开始减速(accel_7d 从上一期的 1.41 降至衰退区间)。这意味着什么——是技术路线已收敛到终局,还是社区正在寻找下一个架构突破口?你押哪个方向?
CALVIN 7 次 + LIBERO Plus 5 次 SOTA 变动,全部被标记为「saturated」。顶级实验室(OpenAI 49 mentions, Anthropic 37 mentions)的产出只能刷边际数字。当 RoboCasa-GR1-Tabletop 和 RoboChallenge 各有 3 次变动但尚未形成气候——你认为下一个主战场会是 Isaac/Genesis 动态场景、真机长程任务、还是某个还没出现的新基准?
产业端首形科技融资数亿元做"仿生面部组件"、博极生命发布情感陪伴机器人、智元 SpikePingpong 实现乒乓球高速对战。学术端 tactile(6 篇,0.34x)和 dexterous_hand(8 篇,0.45x)全面衰退。学术界在放弃"精细操作",产业在押注"情感交互"和"动态控制"。3-6 个月内会出现首个"情感 VLA"品类吗?还是这只是资本讲故事的噱头?
本期 5 篇 ⚡ 论文中有 3 篇直接涉及流匹配(SnapFlow 单步生成、A₁ 层间截断流匹配、OFlow 对象感知时间流匹配)。你能说清 flow matching 跟 diffusion policy 的本质区别吗——不只是"flow matching 更快"这种表层回答,而是从数学形式上解释为什么 flow matching 可以单步生成而 diffusion 需要多步采样?如果不能,这是你这两周最该补的课。
HAMLET(4/17)将历史上下文显式注入 VLA 解决长程任务的时间依赖缺陷,Long-Term Memory for VLA-based Agents(4/21)用化学实验室自动化场景验证记忆机制。两个工作都指向同一个问题:VLA 的 open-loop 本质限制了长视界性能。你认为正确的路径是"在 VLA 之上叠加 System 2 规划层"还是"改造 VLA 本身的架构使其内建记忆"?两者的工程代价和性能上限分别是什么?
Unmasking the Illusion of Embodied Reasoning in VLA Models(Physical Intelligence, 4/22)提出 BeTTER 诊断基准,质疑当前 VLA 在标准基准上的高分是否反映真实的物理推理能力。结合 LongBench(真实世界长视界评估)和 COIN(因果推理交互基准)——你认为 VLA 社区是在解决真问题,还是在一堆被"刷穿了"的基准上自我欺骗?