雙週報告 2026-04-22 — PULSAR

🤔

双周反思 | 2026-04-09 – 2026-04-22

读完没立场 = 这两周在消费而不在研究

///

1️⃣

连续 15 天社交情报无顶级实验室信号，同期产业端千寻 30 天 30 亿融资、智元 GO-2 发布、特斯拉 Optimus 上海量产线确认、逐际动力开源 FluxVLA Engine。学术界 12 个方法族全面减速，仅 multi_task 在加速（1.28x），57.2% 的论文是增量变体。你认为这是"学术在消化前期突破"还是"学术已经失去方向感，被产业资本拖着走"？给出你的判断依据。

2️⃣

flow_matching 以 41 篇对 12 篇碾压 diffusion_policy，rl_finetuning 以 46 篇对 3 篇终结 SFT 在动作头训练中的统治。但本期 flow_matching 自身也开始减速（accel_7d 从上一期的 1.41 降至衰退区间）。这意味着什么——是技术路线已收敛到终局，还是社区正在寻找下一个架构突破口？你押哪个方向？

3️⃣

CALVIN 7 次 + LIBERO Plus 5 次 SOTA 变动，全部被标记为「saturated」。顶级实验室（OpenAI 49 mentions, Anthropic 37 mentions）的产出只能刷边际数字。当 RoboCasa-GR1-Tabletop 和 RoboChallenge 各有 3 次变动但尚未形成气候——你认为下一个主战场会是 Isaac/Genesis 动态场景、真机长程任务、还是某个还没出现的新基准？

4️⃣

产业端首形科技融资数亿元做"仿生面部组件"、博极生命发布情感陪伴机器人、智元 SpikePingpong 实现乒乓球高速对战。学术端 tactile（6 篇，0.34x）和 dexterous_hand（8 篇，0.45x）全面衰退。学术界在放弃"精细操作"，产业在押注"情感交互"和"动态控制"。3-6 个月内会出现首个"情感 VLA"品类吗？还是这只是资本讲故事的噱头？

///

🔬

本期 5 篇 ⚡ 论文中有 3 篇直接涉及流匹配（SnapFlow 单步生成、A₁ 层间截断流匹配、OFlow 对象感知时间流匹配）。你能说清 flow matching 跟 diffusion policy 的本质区别吗——不只是"flow matching 更快"这种表层回答，而是从数学形式上解释为什么 flow matching 可以单步生成而 diffusion 需要多步采样？如果不能，这是你这两周最该补的课。

🔬

HAMLET（4/17）将历史上下文显式注入 VLA 解决长程任务的时间依赖缺陷，Long-Term Memory for VLA-based Agents（4/21）用化学实验室自动化场景验证记忆机制。两个工作都指向同一个问题：VLA 的 open-loop 本质限制了长视界性能。你认为正确的路径是"在 VLA 之上叠加 System 2 规划层"还是"改造 VLA 本身的架构使其内建记忆"？两者的工程代价和性能上限分别是什么？

🔬

Unmasking the Illusion of Embodied Reasoning in VLA Models（Physical Intelligence, 4/22）提出 BeTTER 诊断基准，质疑当前 VLA 在标准基准上的高分是否反映真实的物理推理能力。结合 LongBench（真实世界长视界评估）和 COIN（因果推理交互基准）——你认为 VLA 社区是在解决真问题，还是在一堆被"刷穿了"的基准上自我欺骗？