MolmoAct2: Action Reasoning Models for Real-world Deployment
Haoquan Fang et al. · 推出开源、轻量且专为真实部署优化的VLA模型MolmoAct2。在多项基准上超越闭源前沿模型,解决开放权重VLA的性能与部署瓶颈,确立新SOTA。
Haoquan Fang et al. · 推出开源、轻量且专为真实部署优化的VLA模型MolmoAct2。在多项基准上超越闭源前沿模型,解决开放权重VLA的性能与部署瓶颈,确立新SOTA。
Xiaoqi Li et al. · 提出触觉注入机制增强VLA在接触丰富场景下的反馈反应。填补了触觉VLA方向空白,方法具有明确的工程复用路径,适合本周集成测试。
Robin Karlsson et al. · 通过缓存状态表示解决LLM作为机器人认知引擎时的TTFT延迟瓶颈。提供实时策略部署的工程优化方案,显著降低推理延迟,具备直接应用价值。
Yanzhe Chen et al. · 提出锚点中心适应法解决VLA模型在特定硬件上的embodiment gap问题。针对低成本数据下的领域适应提供新方法,对实际部署有指导意义。
Yuxuan Wu et al. · 解决VLA持续学习中的灾难性遗忘问题,提出高效适应方法。针对CIL痛点提供具体解决方案,有助于提升模型长期演化能力,值得复现。
Boyuan Chen et al. · 利用大型视频规划器扩展多模态大模型以实现通用机器人控制。引入视频预测辅助决策,为VLA提供新的长视界规划视角,具备实验参考价值。
Shuanghao Bai et al. · 提出潜在思维与预测机制,解决离散CoT与连续控制的失配问题。降低推理开销并提升逻辑一致性,为VLA内部表征优化提供新思路。
Youqiang Gui et al. · 通过自进化扩散策略解决长视界操作中的性能退化问题。改进DP在堆叠观测下的表现,方法可直接应用于现有Diffusion Policy代码库。
Zhengtong Xu et al. · 提出生成式接触接地机制,提升灵巧手在接触丰富场景下的操控能力。结合视触觉信息,为高难度灵巧操作提供有效解决方案。
Jinhao Zhang et al. · 从频域视角重构3D扩散策略,优化采样步骤与解码器设计。显著提升推理效率,为轻量化部署提供可复用的工程优化方案。
Yuhua Jiang et al. · 提出广义与专用专家混合结构以优化VLA参数高效微调。缓解过拟合并提升泛化,为下游任务适配提供高效的LoRA替代方案。
Yuhao Zhou et al. · 提出无需语言标注的联邦VLA学习方法,解决数据隐私与标注成本问题。为分布式机器人数据协同训练提供可行路径,具工程价值。
Zuojin Tang et al. · 重新审视VLA世界模型中的视觉带宽,提出每帧一token的高效编码策略。平衡预测精度与计算成本,为长视界规划提供轻量化实现参考。
Kana Miyamoto et al. · 利用注意力机制分布差异筛选失败演示数据以提升模仿学习效率。提供简单有效的数据清洗策略,可快速集成到现有IL流程中。
Riad Ahmed et al. · 提出任务无关的安全监控框架TAIL-Safe,保障模仿学习策略的安全性。即插即用的安全模块,适用于各类IL/VLA策略部署前的风险管控。
Zhaohui Du et al. · 针对生物实验室自动化,提出基于VLA的多智能体系统以处理非结构化协议。属于特定领域应用,缺乏通用VLA架构创新或跨平台基准验证。
Jichuan Yu et al. · 专注于长视界积木组装的视觉运动技能组合框架。虽涉及操作,但任务过于特定且缺乏通用VLA基准对比,属于细分场景应用研究。
Giacomo Spigler · 发布首个用于模仿学习中主动视觉和预期注视的基准数据集TAVIS。重要资源但无新算法贡献,供社区后续评估使用,非紧急技术突破。
Yufan Deng et al. · 构建百万小时级人类中心视频数据集以支持具身智能学习。大规模数据基础设施工作,虽重要但属数据层贡献,不直接改变VLA训练范式。
Xinyu Zhang et al. · 提出基于残差潜在动作的视觉特征世界模型,避免像素生成开销。方法新颖但主要在仿真验证,缺乏真实机器人操作闭环证据。
Tianwei Ye et al. · 综述3D生成在具身AI和机器人仿真中的应用。全面梳理现状但无新技术贡献,适合作为背景阅读而非即时技术跟进。
Jiaxuan Gao et al. · 利用动态潜在自举构建风格鲁棒的世界模型模拟器,用于VLA后训练。方法复杂且主要依赖仿真,真实机器人迁移效果待验证。
Jaeyoung Choi et al. · 发布第一人称手部姿态预测基础模型EggHand。聚焦于人手姿态估计而非机器人控制策略,属于感知层工具而非核心VLA进展。
Minglu Zhu et al. · 开发集成原位传感的软触觉芯片以增强遥操作反馈。硬件创新为主,虽相关但非软件/VLA算法层面的直接进展。
Dongting Li et al. · 结合动力学感知世界模型实现人形机器人敏捷物体交互。侧重全身控制与动力学,虽涉及操作但非典型VLA视觉语言对齐范式。
Qinshi Zhang (University of California et al. · 提出可供性接地世界模型以处理具有组合前提的环境。理论性强但实验多在仿真,缺乏真实机器人长视界操作验证。
Wenyuan Li et al. · 揭示潜在世界模型预测准确但不可规划的问题,并提出RC-aux辅助训练。深入分析模型缺陷,但对VLA实际控制性能提升尚不明确。
Kewei Lian et al. · 发布LoopNav基准以评估世界模型的空间一致性。重要评估工具但无新算法,供社区检验世界模型质量。
Roussel Desmond Nzoyem et al. · 提出权重空间世界模型以避免像素解码开销。理论新颖但主要在视频预测层面,未展示其在机器人控制中的具体应用。
Nikhilesh Prabhakar et al. · 结合神经符号方法与人类指导的模仿学习。方法相邻但缺乏VLA架构整合及大规模基准验证,暂归为值得了解。