MolmoAct2: Action Reasoning Models for Real-world Deployment
Haoquan Fang et al. · 发布MolmoAct2,开源轻量级VLA模型,专为真实世界部署优化,打破闭源模型垄断。在多个基准测试中展现SOTA性能,解决了VLA落地难的核心瓶颈,极具战略意义。
Haoquan Fang et al. · 发布MolmoAct2,开源轻量级VLA模型,专为真实世界部署优化,打破闭源模型垄断。在多个基准测试中展现SOTA性能,解决了VLA落地难的核心瓶颈,极具战略意义。
Wenhao Li et al. · 引入元认知机制和主动状态监控,使VLA模型具备动态推理和错误恢复能力。提供了提升VLA鲁棒性的新工程思路,适合关注长序列任务稳定性的研究者参考。
Wenhao Li et al. · 提出自适应测试时计算(ATTC)策略,通过相对动作评判模型动态调整推理深度以平衡速度与精度。为VLA部署中的算力优化提供了具体可行的技术方案。
Jinhao Zhang et al. · 从频域视角重新审视扩散策略,提出频率感知的3D扩散策略裁剪方法(Hydra-DP3)。显著降低计算开销同时保持性能,为Diffusion Policy的高效部署提供实用工具。
Zhilong Zhang et al. · 通过基于预期的子目标生成机制解决VLA在长视界任务中的规划难题。将高层规划与底层执行解耦,为提升VLA复杂任务成功率提供了新的架构模块。
Om Mandhane et al. · 提出基于手机的低成本、硬件无关遥操作系统,旨在降低VLA数据采集门槛。解决了数据收集的工程痛点,具有极高的复用价值和社区推广潜力。
Lukas Rustler et al. · 结合视觉初始估计与触觉反馈进行迭代形状补全和抓取,模拟人类操作过程。填补了触觉VLA方向的部分空白,为接触丰富型操作提供了具体实现方案。
Yudong Liu et al. · 提出Latent Bridge机制,通过预测特征增量避免双系统VLA中VLM骨干网的冗余计算。显著提升推理效率,是解决VLA部署瓶颈的高价值工程优化。
Chenyu Hui et al. · 提出高效的Sim-to-Real视频迁移方法,用于VLA数据增强,缩小仿真与现实的视觉域差距。为缓解VLA数据饥渴提供了实用的数据合成路径。
Zhemeng Zhang et al. · 提出TouchGuide范式,在推理时融合触觉引导视觉运动策略,改善细粒度操作。为触觉VLA提供了即插即用的推理时修正方案,具有较高的实用价值。
Jinhao Li et al. · 提出STEP方法,利用时空一致性预测对扩散策略进行热启动,加速推理收敛。针对Diffusion Policy的计算瓶颈提供有效优化,易于集成到现有VLA流程中。
Kevin Yuchen Ma et al. · 提出语义接触场,结合语义规划与精确物理控制,实现类别级的触觉工具操作泛化。填补了VLA在接触丰富工具操作领域的空白,具有明确的触觉VLA应用路径。
Jiaxing Li et al. · 针对可变形物体操作提出基于神经算子的在线安全过滤器,解决传统RL奖励塑造缺乏显式安全保证的问题。属于控制理论在机器人中的应用,非VLA核心架构创新。
Riad Ahmed et al. · 探讨从演示学习的视觉运动策略的安全性问题,旨在超越单纯的任务成功率指标。侧重于IL的安全边界分析,虽相关但非VLA架构层面的直接突破。
Moniruzzaman Akash et al. · 利用3D Gaussian Splatting生成高保真合成演示数据,解决IL中数据稀缺问题。主要贡献在于数据合成管线,对VLA数据增强有参考价值,但非核心算法创新。
Xitie Zhang et al. · 提出分解与重组方法,利用已有技能推理新任务,旨在提升跨任务泛化能力。属于上下文学习在机器人中的应用探索,实验细节需进一步确认其VLA相关性。
Zichao Hu et al. · 针对人形机器人提出视觉目标推动的力自适应控制方法。侧重于特定物理交互技能的控制层实现,而非通用的VLA感知-决策框架。
Noushad Sojib et al. · 提出一种用于衡量模仿学习数据质量的度量指标,辅助OOD场景下的微调。属于数据-centric AI范畴,对VLA训练数据筛选有间接帮助,非核心模型改进。
Zijian An et al. · 介绍VILAS低成本模块化机器人平台,集成软抓取和VLA策略部署。属于系统搭建类工作,虽提及VLA但侧重硬件集成,非算法或理论创新。
Berk Çiçek et al. · 利用LLM进行高层语义理解并结合自适应控制处理接触丰富操作。虽然涉及VLM/LLM,但侧重控制回路设计,与端到端VLA范式有一定距离。
Sergio Orozco et al. · 学习可变形物体的等效神经增强动力学模型,强调数据效率。属于世界模型/动力学建模领域,虽对VLA有用,但非直接的VLA策略学习方法。
Sungyoung Lee et al. · 提出FAN算法改进离线RL的性能和效率。虽可用于机器人策略学习,但属于通用RL算法改进,未专门针对VLA的多模态特性进行优化。
Haoshen Zhang et al. · 构建人机交互事件图以提供结构化监督信号,动机源于机器人学习的数据需求。主要贡献在于视频标注框架,非直接的机器人控制方法。
Shafeef Omar et al. · 提出基于接触显式表示的多任务 locomotion 和 manipulation 统一框架。侧重底层策略的统一表征,虽相关但更偏向传统机器人学习而非高层VLA推理。
Ziyang Sun et al. · 基于3DGS构建高保真机器人数字孪生,支持闭环运动规划。主要贡献在仿真环境重建,属于基础设施类工作,非VLA算法本身。
Jung Min Lee et al. · 通过跨视点重构学习以动作为中心的潜在动作,作为VLA预训练的伪标签。侧重于表征学习,对VLA预训练数据利用有启发,但非端到端VLA架构。
Sizhe Yang et al. · 提出Robo3R前馈3D重建模型,提升机器人操作的3D空间感知质量。侧重感知模块的精度提升,虽重要但属于感知层改进,非VLA决策核心。
Yifan Han et al. · 通过统一的工具-目标可供性桥接人类演示与机器人动作,旨在利用大规模人类视频数据。侧重数据映射机制,实验若仅在简单任务验证则创新性有限。
Yixuan Huang et al. · 推出KinDER基准,评估机器人在运动学和动力学约束下的物理推理能力。作为评测数据集,对VLA研究有长期价值,但非即时可用的算法进展。