CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models
针对VLA微调难问题,提出在参数空间学习可迁移的能力向量(Capability Vectors)。提供了一种新的参数高效微调思路,有助于降低适配成本,具有明确的工程复用价值。
针对VLA微调难问题,提出在参数空间学习可迁移的能力向量(Capability Vectors)。提供了一种新的参数高效微调思路,有助于降低适配成本,具有明确的工程复用价值。
Yanbin Hu et al. · 引入连续分层记忆机制解决VLA长程任务中的信息丢失问题。相比线性存储,该方法提供了结构化的先验,对提升长视界操作性能有实质贡献,适合关注长期依赖的研究者。
Shuoheng Zhang et al. · 结合触觉反馈与流匹配(Flow Matching)解决接触丰富场景下的操作难题。填补了触觉VLA方向的空白,为灵巧操作提供了新的建模视角,具有较高的技术参考价值。
Yanyan Zhang et al. · 提出无需训练的动态感知校正方法,解决VLA单帧观察导致的时序盲区问题。作为一种即插即用的推理后处理或中间层修正方案,本周即可复用以提升现有模型表现。
Pablo Ortega-Kral et al. · 提供跨实体机器人学习的实时I/O框架。解决了多平台部署的工程痛点,代码/工具链具有极高的本周复用价值,是构建通用VLA系统的基础设施级贡献。
Xianzhe Fan et al. · 提出测试时“做梦”机制,在关键阶段通过想象未来轨迹来避免失败。这是一种新颖的推理时增强策略,可直接应用于现有VLA以提升安全性,具有明确的应用路径。
Yixu Feng et al. · 提出可微网格采样剪枝以降低VLA计算成本并提升泛化。直接针对VLA部署瓶颈(算力/速度),提供了具体的模型压缩/加速方案,具备工程落地价值。
Joonha Park et al. · 提出在指令未完成前即开始行动的预判机制,显著降低延迟。这是一种创新的推理范式,能直接提升VLA系统的响应速度,具有明确的性能优势和复用价值。
Matthew M. Hong et al. · 提出扩散时间步调制预训练以改善RL微调时的探索效率。解决了BC预训练导致动作分布狭窄的核心痛点,为VLA的RL精调提供了有效的技术路径。
Xiaosong Jia et al. · 通过即插即用的动作注意力专业化来指定任务相关因素。提供了一种可解释且灵活的VLA控制增强模块,易于集成到现有架构中,具有较好的工程实用性。
Harold Soh et al. · 深入分析VLA中的动作幻觉现象。揭示了生成式VLA的核心缺陷,对于理解模型局限性和改进训练目标具有重要指导意义,属于高价值的诊断性研究。
提出利用立体视觉增强单目VLA的深度感知能力。属于感知模块改进,非核心架构或训练范式创新,且未提及在多个主流Benchmark上的SOTA超越。
Tianchonghui Fang et al. · 通过主动照明和数据中心方法增强VLA鲁棒性。侧重于数据收集和仿真优化策略,虽实用但缺乏算法层面的根本性创新,属于工程优化类工作。
Kaixin Jia et al. · 将高斯泼溅用于预测性3D表示以辅助语言引导的操作。主要贡献在于表征学习而非VLA控制策略本身,与核心VLA架构关联度较弱,归为值得了解。
Hao Wang et al. · 提出基于折扣活跃度的离线策略评估方法。虽然对VLA开发流程重要,但属于评估指标/方法论创新,不直接改变VLA模型架构或训练效果,故归为📖。
Yufeng Jin et al. · 旨在简化机器人学习配置流程。侧重于工程易用性和系统集成,虽有价值但缺乏算法层面的实质性创新,属于工具类论文。
Xiaofei Wei et al. · 聚焦于导航策略的在线模仿学习。虽然涉及移动操作,但未明确结合VLA的大模型特性或语言指令理解,更偏向传统移动机器人控制,故归为📖。
Junjin Xiao et al. · 利用多视图扩散模型生成潜在新视图以解决深度歧义。属于感知辅助手段,未触及VLA核心决策机制,且主要依赖预训练模型,创新度有限。
Sheng Xu et al. · 通过代理任务图实现前瞻性故障恢复。引入了Agentic概念,但更多是高层规划逻辑,与底层VLA视觉-动作映射的直接关联较弱,视为相邻方向。
Siyin Wang et al. · 探讨世界模型在VLA中的应用前景。标题宏大但摘要多为概念阐述和趋势分析,缺乏具体的新架构或实验数据支撑,属于综述/观点类文章。
Kai Xiong et al. · 通过双向动作-姿态交互增强空间感知。虽提及VLA背景,但核心仍是模仿学习中的空间建模技巧,未见对VLA大模型特性的深度整合或SOTA突破。
Yajie Li et al. · 利用视频生成模型的想象未来指导动作执行。混合潜在动作方法有一定新意,但摘要未展示在标准VLA Benchmark上的显著优势,暂归为值得了解。
Yibo Liu et al. · 针对高精度插入任务提出力域扩散策略。专注于特定接触任务(Peg-in-hole),虽有效但适用范围较窄,未体现VLA的通用泛化能力,归为📖。
Chengyue Huang et al. · 发布了一个针对时序安全性的操作基准。数据集/Benchmark类工作,对社区重要但不紧急,且不包含新的VLA算法或模型,故归为📖。
Qian Chen et al. · 提出自适应分块大小的Actor-Critic算法。属于强化学习算法改进,虽可用于机器人,但未明确结合VLA的大模型特性或视觉语言输入,关联性一般。
Andrew Choi et al. · 通过自监督动作排名实现离线到在线RL。通用RL算法改进,未针对VLA架构进行特定优化或验证,故归为📖。
Alberta Longhini et al. · 关注多模态生成策略微调中的行为模式发现。虽与VLA相关,但侧重于RL微调过程中的分布保持问题,非VLA核心架构创新,归为📖。
Lei Su et al. · 提出几何一致的穿透深度图以缩小触觉Sim2Real差距。专注于触觉传感器仿真,虽对触觉VLA有用,但属于底层感知仿真技术,非上层VLA策略创新。