MotuBrain: An Advanced World Action Model for Robot Control
MotuBrain Team et al. · 提出结合世界模型与动作预测的VLA架构,旨在增强对世界动态的细粒度建模,为VLA引入更深层的物理推理能力。
MotuBrain Team et al. · 提出结合世界模型与动作预测的VLA架构,旨在增强对世界动态的细粒度建模,为VLA引入更深层的物理推理能力。
Hao Chen et al. · 通过自适应物理潜在推理强化VLA的动作输出,解决显式语言推理延迟高问题,提供可复用的RL精调思路以提升VLA响应速度。
Yang Zhang et al. · 利用对比表示学习构建基元推理系统,超越传统行为克隆,为VLA提供基于目标导向的任务分解框架,具有方法论创新。
Zhemeng Zhang et al. · 提出视触觉融合范式,在推理阶段利用触觉引导视觉运动策略,显著提升接触丰富任务的鲁棒性,填补触觉VLA应用空白。
I-Chun Arthur Liu et al. · 引入3D多视图对比预训练,解决2D表征缺失空间信息的问题,提升VLA在复杂空间操作中的泛化能力,代码/方法易复用。
Chengyang Li et al. · 引入人类注视点作为意图信号辅助VLA学习,降低对大规模机器人演示数据的依赖,提供新的多模态对齐方向。
Yang You et al. · 提供高精度可微分光学触觉仿真器及实到仿校准方法,解决触觉VLA数据稀缺瓶颈,极具工程复用价值。
Zhaoting Li et al. · 重新定义模仿学习中的动作监督形式,利用纠正反馈提升BC鲁棒性,为VLA处理噪声数据提供理论支撑与方法。
Zhaowen Fan et al. · 提出事件中心的世界模型,结合记忆增强检索提升具身决策效率,为VLA引入长程依赖与因果推理新机制。
将真实世界场景转换为Minecraft仿真环境,虽有助于具身智能数据生成,但缺乏直接VLA训练或策略学习实验,属工具类工作。
Junyi Ma et al. · 综述论文,总结从人类视频学习机器人技能的研究进展,重要但不紧急,无新算法贡献。
Tim Missal et al. · 针对柔性线性物体(DLO)的动力学建模,使用状态空间模型,虽涉及操作但未明确结合VLA语义理解,属特定对象控制方法。
Zhanguang Zhang et al. · 对比世界动作模型与VLA的鲁棒性,属评估与分析类研究,未提出新架构或显著性能突破,供了解领域现状。
Song Tang et al. · 基于LLM的3D室内场景生成工具,虽服务于具身AI仿真,但核心贡献在场景生成而非机器人控制策略。
Habtom Kahsay Gidey et al. · 探讨VLA在企业级系统中的软件架构模式,关注延迟与非确定性处理,属系统工程视角,非算法核心。
Mengling Deng et al. · 优化边缘端VLM推理效率,虽涉及部署,但主要贡献在模型压缩/加速工程,非VLA本体架构创新。
探索表格基础模型在机器人策略学习中的应用,概念新颖但实验规模有限,属初步可行性验证。
Erlong Wang et al. · 新型液态金属连续触觉传感器硬件研究,属传感硬件创新,未涉及VLA算法或控制策略集成。
Pokuang Zhou et al. · 四足机器人 loco-manipulation 中的触觉感知学习,虽涉及操作但侧重移动平台,且未明确结合VLA大模型范式。
Mohammad Amin Mirzaee et al. · 灵巧手的功能参数协同设计优化,侧重机械设计与控制解耦,非VLA算法或策略学习核心内容。
Binghao Huang et al. · 低成本开源触觉传感器硬件方案,虽实用但属硬件工程,未涉及VLA算法集成或策略学习实验。
Jiawei Liu et al. · 图世界模型的综述与分类,梳理现有方法并指出未来方向,属理论整理,无具体算法实现。
Keming Wu et al. · 视觉生成模型演进综述,讨论从原子映射到代理世界模型的转变,背景相关但非直接VLA控制算法。
Zhengyan Huan et al. · 改进流匹配模型以处理约束违反问题,属生成模型算法优化,未明确应用于机器人操作或VLA场景。