雙週報告 2026-05-06 — PULSAR

🤔

双周反思 | 2026-04-23 – 2026-05-06

读完没立场 = 这两周在消费而不在研究

///

1️⃣

本期 315 篇论文中 ⚡ 级突破为零，所有方法族（tactile 0.65、flow_matching 0.65、long_horizon 0.44、dexterous_hand 0.36）同步下滑，无任何方向加速。CALVIN/LIBERO 的 38 次 SOTA 变动全是 +0.03 avg_len 级别的边际刷分。这是领域真的进入了"范式静默期"，还是我们的 RSS 采样错过了真正的突破？如果后者——突破可能藏在哪里？

2️⃣

Flow Matching 以 28 篇彻底接管动作头，扩散策略 仅 11 篇且加速 0.18 断崖衰退。但本期方法趋势中 flow_matching 自身也跌入 0.65 的衰退通道。你认为是 FM 已经见顶、社区开始寻找下一棒，还是 FM 只是从"增量论文"变成了"默认配置"所以不再被单独计数？这两种判断会导向完全不同的资源分配。

3️⃣

社交情报连续 16 天无顶级实验室信号，同期中国具身赛道 30 天内融资超 60 亿元（它石 30 亿 + 极佳 15 亿 + DeepSeek 首融）。产业资本在疯狂押注，但 VLA 模型层面的实质性进展（逐际 FluxVLA 开源、Xbotics A₁ 延迟 -72%）屈指可数。这是"学术-产业温差倒挂"的加速证据，还是资本泡沫在脱离技术基本面狂奔？你的判断依据是什么？

4️⃣

MuJoCo 3.8.0（4/24）+ Genesis v0.4.4-0.4.6（3/29-4/11）+ OpenWorldLib（5/1）密集发布，仿真与推理环境进入"开箱即用"阶段。当工业级基建已经抹平了单一模块的工程壁垒，学术界在 sim_to_real（加速 0.06）和 cross_embodiment（加速 0.06）上的修补还有发表价值吗？你的课题组如果现在还在做这两个方向，你打算怎么调整？

///

🔬

RL Token（2604.23073）提出用单个 token 引导预训练 VLA 进行在线 RL 微调，仅需数小时真实世界实践即可实现 sample-efficient fine-tuning。本期 RL 微调 34 篇碾压指令微调 3 篇，但你能说清 RL Token 的 co-training 机制跟传统的 DPO/GRPO 在策略分布约束上的本质区别吗？如果不能，这是你这两周最该补的课。读论文：https://arxiv.org/abs/2604.23073

🔬

DIAL（2603.29844）通过潜在世界建模解耦意图与动作，试图解决 VLM 作为纯编码器时的训练不稳定问题。同期 Mask World Model（2604.19683）和 RISE（2602.11075）都在往"世界模型先验"方向走。你能用一句话概括这三篇在"世界模型如何介入 VLA 控制闭环"上的架构分歧吗？如果不能，去读。

🔬

触觉 VLA 方向：calibration check 标记 V-002（触觉必要性假设）为 weak + declining，但本期同时出现了 DOT-Sim（可微分光学触觉仿真）、FlexiTac（低成本开源触觉硬件）、Daimon-Infinity（DeepMind 支持的最大 omni-modal 触觉数据集）。硬件/仿真/数据三箭齐发，为什么 VLA 算法层的触觉集成论文反而在减少？是触觉信号真的无法有效注入 VLA 策略头，还是社区在等一个突破性的融合架构？

🔬

Breaking Lock-In（2604.23121）揭示了低数据 SFT 后 VLA 策略的"指令跟随能力丧失"现象——微调后模型只对训练数据中的指令有反应，遇到新指令直接失效。这在工程部署中是致命问题。你能解释 Lock-in 的根因是梯度冲突、表征坍塌、还是注意力机制的固有缺陷吗？去读论文，给出你的判断。