CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models
提出在参数空间学习可迁移的能力向量,以解决VLA微调中的适应成本问题。提供了一种新的参数高效微调思路,具有明确的工程复用价值。
提出在参数空间学习可迁移的能力向量,以解决VLA微调中的适应成本问题。提供了一种新的参数高效微调思路,具有明确的工程复用价值。
Ayoub Agouzoul · 深入分析VLA异步推理导致的观测陈旧问题及现有缓解方法。为部署高延迟VLA模型提供关键的工程洞见和优化方向,对实际系统搭建极具参考价值。
Meng Zheng et al. · 针对VLA仅依赖成功数据导致脆弱的问题,引入自适应失败信息学习机制。通过利用失败轨迹提供纠正信号,显著提升长程任务鲁棒性,方法具体且有效。
Kewei Chen et al. · 提出弹性时间视野的单步物理一致策略,旨在解决扩散策略的高延迟问题。在保证物理一致性的同时实现加速,对实时控制应用有明确价值。
Tianyi Zhang et al. · 提出保守监督微调(ConSFT)以防止Flow-Matching VLA在微调中遗忘预训练能力。解决了灾难性遗忘这一关键痛点,方法简单有效,易于集成。
Quilee Simeon et al. · 提出通过基础设施即提示实现硬件的一次性发现与控制。解决了VLA Agent在不同硬件平台部署时的适配难题,提供了具体的工程协议和接口方案。
Weijia Liufu et al. · 引入恢复驱动的策略优化,利用失败回滚数据训练VLA从错误中恢复。直接针对接触丰富任务的鲁棒性,提供了新的训练信号来源,具有实质贡献。
Jianchao Zhao et al. · 提出检索-转向机制,利用在线成功记忆进行VLA测试时自适应。无需重新训练即可提升局部部署可靠性,方法轻量且具备即时应用潜力。
Hao Wang et al. · 通过视觉编码器接地对齐增强VLA的空间感知能力。针对2D预训练 backbone 缺乏3D几何监督的痛点,提供具体的对齐模块,有助于提升空间推理精度。
Junjie Lu et al. · 提出统一噪声引导机制以实现高效的人类指导VLA适配。降低了在线RL的成本,允许人类反馈直接干预扩散过程,提升了人机协作效率。
Xinyu Guo et al. · 提出保留先验的微调方法,防止VLA在下游任务中丢失通用能力。与ConSFT类似,解决微调稳定性问题,提供另一种正则化视角,具有实用价值。
Sangwu Park et al. · 针对视觉预见VLA提出测试时训练(TTT)以应对分布外偏移。使模型能在部署阶段动态适应新环境,提升了系统的鲁棒性和适应性,方法新颖。
提出利用立体视觉增强单目VLA策略的深度感知能力。属于感知模态改进,非核心架构或训练范式突破,且未提及在多个主流Benchmark上的显著SOTA超越。
Riad Ahmed et al. · 改进Flow Matching训练目标以保持一致性。虽涉及VLA核心算法,但摘要未展示跨Benchmark的显著优势或解决核心瓶颈的证据,视为算法层面的常规优化。
Antong Zhang et al. · 提出基于最佳努力适应的跨域协同训练框架。主要解决源域与目标域数据分布差异,属于领域适应范畴,缺乏对VLA通用泛化能力的根本性突破证据。
Kewei Chen et al. · 关注VLA模型的后门攻击防御与安全对齐。虽重要但属于安全子领域,不直接提升操作性能或泛化能力,对日常VLA开发者的优先级较低。
Yinwei Dai et al. · 利用几何引导的自我一致性来优化扩散/流匹配策略的随机性。属于推理阶段的启发式优化,未改变底层训练范式,贡献局限于特定推理场景。
Youhe Feng et al. · 结合VLM生成过程感知的进度奖励以支持长程操作。侧重于RL奖励塑造,而非VLA架构本身,且主要依赖仿真或特定设置,通用性待验证。
Ming Sun et al. · 探索基于后门的水印技术用于VLA所有权验证。属于知识产权与安全交叉领域,对提升机器人操作性能无直接帮助,受众较窄。
Kewei Chen et al. · 将指令漂移重新概念化为采样误差,并提出信噪比感知的功率分布。理论新颖但主要聚焦于规划层面的噪声调度,对VLA核心操作能力的提升间接。
Narsimha Menga et al. · 发布面向真实世界VLA适配的可扩展动作数据集。数据集类论文通常归为值得了解,除非其规模或质量引发范式变革,此处暂定为资源补充。
Kejia Ren et al. · 研究灵巧手零样本Sim-to-Real抓取。侧重特定技能(抓取)的物理控制,非通用VLA架构或训练方法,应用场景较为局限。
Tianhong Gao et al. · 提出可组合的关节动力学模型以模拟铰接物体。主要贡献在于仿真物理引擎的逼真度,对VLA算法本身的创新影响有限。
Zhenhao Shen et al. · 关注异构物体交互的可泛化操作。虽具挑战性,但摘要未展示超越现有VLA基准的架构创新,更像是一个特定任务领域的解决方案。
Zuojin Tang et al. · 利用无动作视频提取先验,构建代数一致的潜在转移模型。属于利用大规模无标签数据的自监督预训练探索,但尚未证明其在操作任务中的决定性优势。
Huashuo Lei et al. · 发布综合性的机器人记忆基准测试。基准类工作重要但非紧急,需等待后续基于该基准的方法论出现才能评估其战略价值。
Qiuxuan Feng et al. · 结合世界动作模型(WAM)的想象与执行范式。试图平衡泛化与精度,但摘要未明确展示相比纯VLA或纯WAM方法的显著架构优势,略显概念堆砌。