2026-03-07 – 2026-03-13

VLA 週報

基於 VLA-Handbook 7 天系統數據

開篇

架構創新已死，修 bug 為王。174 篇論文僅 3 篇⚡（1.7%），無一涉及新架構——領域從「誰在做」轉向「怎麼修」，這不是進步，是疲態。

信號湧現地圖

本周最意外的不是「出現了什麼」，而是⚡論文密度驟降。174 篇論文僅 3 篇⚡（1.7%），細看主題：2 篇語言接地修復（ReViP、Attention Recalibrat）、1 篇跨手潛在表徵——無一架構創新。更值得警惕的是 hotspot_days=0——6 天有數據但無熱點日，信號分散如沙，無集中爆發。這像一個「微創新頻發但無方向共識」的階段。

另一個異常：method 提及次數首次全面超越 lab。world_model(22 次)、language_grounding(20 次) 的活躍度遠超 OpenAI(17 次)、Anthropic(14 次)——這是首次方法論討論熱度超過實驗室動態。對比 2024 年 OpenVLA 橫空出世時「誰在做」主導敘事，現在領域轉向「怎麼做」。我預測：2 周內若仍無實驗室主導的架構級突破，「方法論碎片化」將成為新常態，社區將分裂為「語言接地派」「RL 微調派」「world_model 派」三個陣營。

叙事断裂 NARRATIVE BREAK

敘事斷裂偵測

主流敘事認為「VLA 領域正朝著統一架構收斂」，但數據顯示方法論提及次數首次全面超越實驗室動態。假設 V-001(confidence=0.78) 預設「Diffusion Policy 將成為標準動作頭」，但 flow_matching 以 0.84 加速比持續追趕（delta=0.16），且 1075 篇 upstream arxiv 信號中無一明確支持 diffusion 的架構優勢——這一假設正在被靜默侵蝕。

更危險的斷裂在於「學術 - 產業對齊」敘事。假設 V-007(confidence=0.74) 預設「sim_to_real 是 VLA 落地的必經之路」，但 sim_to_real 加速比從 0.62 暴跌至 0.28（delta=-0.34，-55%），7 天僅 9 篇論文。這不是周期性波動——硬件普及速度遠低於論文產出速度，大多數研究者沒有真實機器人可刷。當學術界在逃「硬件依賴」，產業界在談「產線部署」（Neura Robotics $1.2B、Agility 更名、Samsung DAM-VLA），V-007 的 0.74 confidence 將在 4 周內面臨下調壓力。另一假設 V-010(confidence=0.61) 關於「觸覺反饋是精細操作必要條件」，tactile 加速比僅 0.37（delta=-0.19），12 篇論文中無一篇涉及真實觸覺傳感器——這一假設的 0.61 confidence 已處於危險區間。

3 篇⚡論文無一涉及架構創新，這直接挑戰假設 V-003(confidence=0.72)「架構創新仍是主要進步來源」——如果「修 bug」比「新架構」更容易出⚡論文，研究者的激勵函數將系統性偏向工程優化。我預測：若 2 周內仍無架構級⚡論文，V-003 的 confidence 將跌破 0.60。

領域方向感知

基於 field-state delta + upstream signals，領域的「重心」正在從認知層向執行層遷移。language_grounding(delta=1.1) 和 rl_finetuning(delta=0.71) 的爆發式增長，配合 sim_to_real(-0.34) 和 tactile(-0.19) 的衰退，描繪出一幅「軟件層收斂、硬件層發散」的圖景。1075 篇 upstream arxiv 信號全部歸類為「unknown」——這不是分類失誤，而是領域正在產生現有 taxonomy 無法捕捉的新信號。

可證偽命題一：如果 language_grounding 加速比在 2 周內維持>1.5，那麼 V-001(diffusion 標準動作頭) 假設將不再成立——語言接地修復的優先級已超過動作頭選擇。

可證偽命題二：如果 rl_finetuning 的 51 篇論文中有超過 30 篇被評級為📖或❌（當前 85% 比例），那麼「工具鏈民主化=方法成熟」的隱含假設將被證偽——這 51 篇中大部分是「調參報告」而非方法創新。

可證偽命題三：如果 hotspot_days 在 3 周內仍為 0，那麼「方法論碎片化將成為新常態」的預測將獲驗證——社區將正式分裂為三個陣營，無一方能主導敘事。

最關鍵的觀察點：world_model 加速比 1.12(delta=0.19) 雖為正增長，但遠低於 language_grounding 的 1.56。如果 LeCun 的 world_model 路線是「正確答案」，為何工程圈用腳投票選擇「先修語言接地」？要麼 world_model 的工程門檻過高，要麼領域對「認知層收斂」的耐心已耗盡——2 周內的⚡論文主題分布將給出答案。

速度異常

本周|delta| > 0.3 的方法族有 3 個，呈現「軟件層爆發、硬件層退潮」的分化格局。language_grounding 加速比從 0.46 飆升至 1.56（delta=1.1，+240%），7 天 50 篇論文——兩篇⚡論文（語言接地修復）發布後，社區迅速跟進「推理時修復」方案。這暗示：語言接地問題從「架構缺陷」被重新定義為「可修復 bug」，研究者用腳投票選擇「先修再用」而非「等完美架構」。

rl_finetuning 從 0.88 升至 1.59（delta=0.71，+80%），7 天 51 篇論文。工具鏈民主化（LeRobot v0.5.0 等）降低實驗門檻，但 54 篇中僅π-StepNFT 一篇專注不穩定性——「工具易得≠方法成熟」。sim_to_real 從 0.62 暴跌至 0.28（delta=-0.34，-55%），7 天僅 9 篇——結構性衰退：硬件普及速度遠低於論文產出速度。領域處於「執行層收斂（RL/語言接地勝出），認知層發散（world_model 多路徑探索）」的分化期。

可证伪命题 FALSIFIABLE HOOK

最值得讀 / 最值得疑

必讀：LangGap（3/10）。這是本周唯一系統性診斷 VLA 語言理解缺口的論文，提出四維擾動分類法。為什麼必讀？因為 3 篇⚡中有 2 篇是語言接地修復（ReViP、Attention Recalibrat），LangGap 提供診斷框架而非權宜修復——讀完它能讓你判斷哪些「修復」是治本、哪些是治標。對照 V-003 假設（confidence=0.72），如果語言接地是架構缺陷，LangGap 的四維分類能幫你定位缺陷在哪一維。

最值得疑：InstructVLA（3/11）。標題「從理解到操作的視覺 - 語言 - 動作指令微調」，但 instruction_tuning 加速比僅 0.06x（全場最低），14 天僅 3 篇論文。在語言接地修復成為⚡主流的本周，指令微調為何仍有人做？要麼這團隊有未公開的數據優勢，要麼這是一篇「逆週期」的賭注論文。建議精讀 method section，檢查是否有語言接地修復的隱式集成——如果沒有，這篇論文可能在 2 周內被社區用腳投票邊緣化。

观察清单 WATCH LIST

下週觀察清單

觀察點一：如果 language_grounding 加速比在 3/20 前維持>1.5，那麼 V-001 假設（diffusion 標準動作頭）將正式失效——語言接地修復的優先級已超過動作頭選擇，社區將進入「先修語言再談架構」階段。

觀察點二：如果 rl_finetuning 的 51 篇論文中有超過 10 篇在 3/27 前被評級為⚡或🔧（當前僅 1 篇π-StepNFT），那麼「工具鏈民主化=方法成熟」的隱含假設將獲驗證——否則這 51 篇中大部分是「調參報告」。

觀察點三：如果 sim_to_real 加速比在 3/20 前反彈至>0.50，那麼 V-007 假設（sim_to_real 是必經之路）將獲救贖——否則學術界與產業界的「硬件依賴」分歧將正式固化，V-007 的 confidence 將下調至 0.60 以下。

觀察點四：如果 3/27 前出現第 5 篇⚡論文且涉及架構創新（非推理時修復），那麼 V-003 假設（架構創新仍是主要進步來源）將獲驗證——否則領域將正式進入「修 bug 紅利期」，繼續發「新 VLA 變體」的團隊會在 2027 年面臨引用斷崖。

///

本周 Deep Dive：10 篇 | 社交情報：10 起產業信號 | 熱點日：0 天