Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models
Ruofan Jin et al. · 提出在线适应机制,解决VLA模型在新环境中的泛化问题。提供可复用的自适应训练策略,适用于LIBERO等基准测试。
Ruofan Jin et al. · 提出在线适应机制,解决VLA模型在新环境中的泛化问题。提供可复用的自适应训练策略,适用于LIBERO等基准测试。
Huanming Liu et al. · 引入平衡匹配(Equilibrium Matching)优化闭环控制稳定性,改进流匹配解码器。为VLA动作生成提供新的稳定训练范式,可直接应用于现有架构。
Chengyu Deng et al. · 利用语义结构的MoE架构解决扩散策略的可扩展性瓶颈。提供轻量化且具备泛化能力的模型结构,适合资源受限场景部署。
Ziyan Feng et al. · 针对易碎物体操作,提出基于噪声统计的视触觉反射控制框架。填补触觉VLA在力控精细操作领域的空白,具有明确的应用价值。
Jiarui Guan et al. · 引入点跟踪技术解耦动态与视觉干扰,提升世界-动作模型的鲁棒性。为VLA中的状态表示提供低成本改进方案,易于集成到现有pipeline。
Jingyan Zhang et al. · 提出多阶段训练的扩散策略,解决人形机器人语言控制的物理可行性问题。为人形机器人VLA提供可扩展的训练流程,具有较高复用价值。
Junwen Gu et al. · 发布水下机器人VLA数据集USIM及模型U0,填补水下操作领域空白。提供稀缺的多模态水下数据,对拓展VLA应用场景具有重要价值。
Ke Ren et al. · 引入价值引导规划以增强VLA在分布外任务中的长程规划能力。提供即插即用的规划模块,可有效缓解VLA的短视问题。
Changhua Xu et al. · 提出价值引导的动作块选择机制,优化少样本VLA适应效果。为小数据场景下的VLA微调提供高效解决方案,具备工程实用性。
Constant Roux et al. · 提出直接从视频进行动力学重定向的方法,解决人形机器人形态差异问题。为人形机器人VLA的数据预处理提供关键工具。
Yan Tang et al. · 通过运动基元的几何组装实现稀疏组合流匹配,提升轨迹生成效率。方法新颖但缺乏具体机器人硬件实验验证,暂归为值得了解。
Remko Proesmans et al. · 探讨通过对象传感器集成增强模仿学习数据集的方法,以衣架插入为例。属于数据工程方向,对VLA数据收集有启发但非核心算法突破。
Kaichen Zhou et al. · 结合几何增强的视频世界模型,改善长期预测的物理一致性。虽涉及机器人操作,但侧重世界模型生成质量,对直接动作控制的贡献需进一步验证。
Lin Qian et al. · 发布意图驱动的对象导航基准,处理隐式人类指令。作为新Benchmark值得关注,但本身不提供新的VLA架构或算法。
Ying Chai et al. · 提出高斯动作场作为动态世界建模的4D表示。方法创新但偏向表征学习,需更多证据表明其能直接提升端到端VLA策略性能。
Youngjin Hong et al. · 构建语言-动作循环以实现自我改进的操作策略。概念有趣但摘要未展示显著优于SOTA的实验结果,暂归为值得了解。
Jisu Shin et al. · 研究手部遮挡下的物体姿态跟踪信任机制。属于感知子任务,虽服务于具身AI,但未直接涉及VLA决策或控制架构。
Xuan Cai et al. · 开发仿生离子热感受器用于机器人热触觉感知。属硬件传感器创新,虽与触觉VLA相关,但非算法或系统级进展。
Al Bashir et al. · 结合鲁棒视觉与Sim-to-Real RL实现草莓采摘。属特定农业应用案例,缺乏通用VLA方法论贡献,仅作为应用参考。
Elton Cardoso do Nascimento et al. · 提出面向时间序列的生成式世界建模架构。方法通用性强,但缺乏在机器人操作中的具体验证,暂归为值得了解。
Jayden Teoh et al. · 探索Transformer通过下一潜在预测学习紧凑世界模型的能力。属基础模型研究,对VLA的潜在空间压缩有启发但间接。