双周反思 | 2026-04-23 – 2026-05-06
读完没立场 = 这两周在消费而不在研究
本期 315 篇论文中 ⚡ 级突破为零,所有方法族(tactile 0.65、flow_matching 0.65、long_horizon 0.44、dexterous_hand 0.36)同步下滑,无任何方向加速。CALVIN/LIBERO 的 38 次 SOTA 变动全是 +0.03 avg_len 级别的边际刷分。这是领域真的进入了"范式静默期",还是我们的 RSS 采样错过了真正的突破?如果后者——突破可能藏在哪里?
Flow Matching 以 28 篇彻底接管动作头,扩散策略 仅 11 篇且加速 0.18 断崖衰退。但本期方法趋势中 flow_matching 自身也跌入 0.65 的衰退通道。你认为是 FM 已经见顶、社区开始寻找下一棒,还是 FM 只是从"增量论文"变成了"默认配置"所以不再被单独计数?这两种判断会导向完全不同的资源分配。
社交情报连续 16 天无顶级实验室信号,同期中国具身赛道 30 天内融资超 60 亿元(它石 30 亿 + 极佳 15 亿 + DeepSeek 首融)。产业资本在疯狂押注,但 VLA 模型层面的实质性进展(逐际 FluxVLA 开源、Xbotics A₁ 延迟 -72%)屈指可数。这是"学术-产业温差倒挂"的加速证据,还是资本泡沫在脱离技术基本面狂奔?你的判断依据是什么?
MuJoCo 3.8.0(4/24)+ Genesis v0.4.4-0.4.6(3/29-4/11)+ OpenWorldLib(5/1)密集发布,仿真与推理环境进入"开箱即用"阶段。当工业级基建已经抹平了单一模块的工程壁垒,学术界在 sim_to_real(加速 0.06)和 cross_embodiment(加速 0.06)上的修补还有发表价值吗?你的课题组如果现在还在做这两个方向,你打算怎么调整?
RL Token(2604.23073)提出用单个 token 引导预训练 VLA 进行在线 RL 微调,仅需数小时真实世界实践即可实现 sample-efficient fine-tuning。本期 RL 微调 34 篇碾压指令微调 3 篇,但你能说清 RL Token 的 co-training 机制跟传统的 DPO/GRPO 在策略分布约束上的本质区别吗?如果不能,这是你这两周最该补的课。读论文:https://arxiv.org/abs/2604.23073
DIAL(2603.29844)通过潜在世界建模解耦意图与动作,试图解决 VLM 作为纯编码器时的训练不稳定问题。同期 Mask World Model(2604.19683)和 RISE(2602.11075)都在往"世界模型先验"方向走。你能用一句话概括这三篇在"世界模型如何介入 VLA 控制闭环"上的架构分歧吗?如果不能,去读。
触觉 VLA 方向:calibration check 标记 V-002(触觉必要性假设)为 weak + declining,但本期同时出现了 DOT-Sim(可微分光学触觉仿真)、FlexiTac(低成本开源触觉硬件)、Daimon-Infinity(DeepMind 支持的最大 omni-modal 触觉数据集)。硬件/仿真/数据三箭齐发,为什么 VLA 算法层的触觉集成论文反而在减少?是触觉信号真的无法有效注入 VLA 策略头,还是社区在等一个突破性的融合架构?
Breaking Lock-In(2604.23121)揭示了低数据 SFT 后 VLA 策略的"指令跟随能力丧失"现象——微调后模型只对训练数据中的指令有反应,遇到新指令直接失效。这在工程部署中是致命问题。你能解释 Lock-in 的根因是梯度冲突、表征坍塌、还是注意力机制的固有缺陷吗?去读论文,给出你的判断。