AnySlot: Goal-Conditioned Vision-Language-Action Policies for Zero-Shot Slot-Level Placement
Zhaofeng Hu et al. · 提出 AnySlot 架构,解决单体 VLA 在组合语言指令下精确物体放置难题,实现零样本槽位级放置。在多个基准上显著优于 SOTA,突破泛化瓶颈。
Zhaofeng Hu et al. · 提出 AnySlot 架构,解决单体 VLA 在组合语言指令下精确物体放置难题,实现零样本槽位级放置。在多个基准上显著优于 SOTA,突破泛化瓶颈。
Zixing Chen et al. · 构建 HazardArena 基准,专门评估 VLA 模型在语义安全层面的表现,填补现有评测仅关注执行成功率的空白。提供可复用的安全评估框架与数据集。
Junming Wang et al. · 针对灵巧操作数据瓶颈,提出结合 XR 接口的高质量数据采集新方法,旨在扩展基础模型训练数据规模。为数据稀缺问题提供明确的可复用工程路径。
Anh-Quan Pham et al. · 提出迭代组合式数据生成方法,解决多物体、多环境下机器人操控数据收集昂贵问题。可直接用于扩充训练数据集,降低数据采集成本。
Yuhan Xie et al. · 针对多模态扰动下 VLA 模型脆弱性问题,提出解耦鲁棒性学习方法。直接提升现有 VLA 部署稳定性,提供可集成的鲁棒性训练模块。
Fan Yang et al. · 在 3D 高斯场中桥接语言与功能性灵巧动作,整合语义理解与 3D 定位。为非结构化环境下的灵巧抓取提供新的模块化解决方案。
提出基于动态高斯泼溅的导航模拟器,提升视觉真实感与动态人体建模能力。虽对具身 AI 训练环境有益,但属仿真工具而非 VLA 核心算法突破。
Zijian Song et al. · 主张机器人操作本质是视觉到几何的映射,提出优先使用视觉 - 几何骨干网络。观点具有启发性,但摘要未展示具体新架构或实验验证,偏理论探讨。
Jelle Luijkx et al. · 利用 LLM 常识知识引导强化学习在任务和功能层面的探索,提升样本效率。方法相邻但摘要未明确 VLA 架构集成细节,需进一步确认适用性。
Shuo Wang et al. · 提出 Progress-Think 机制,增强 VLN 智能体对长程指令进度的语义推理能力。专注于导航子任务,对通用操作型 VLA 的直接迁移价值有限。
Xuerui Wang et al. · 提出自适应课程规划与动态对比控制方法,优化目标条件强化学习在机械臂操作中的表现。属 RL 算法改进,未体现 VLA 多模态融合特性。
Jianuo Cao et al. · 构建大规模语言标注全身运动数据集,生成类人机器人全身控制器。侧重人形机器人运动生成,与主流机械臂 VLA 操作研究方向略有距离。
Yandan Yang et al. · 提出 ABot-M0 基础模型,利用动作流形学习解决跨硬件泛化问题。标题宏大但摘要缺乏具体架构创新细节及多基准对比证据,需持保留态度。
Huy Anh Nguyen et al. · 检测第一人称视频中手物接触时刻,服务于 AR 及机器人学习。属底层视觉感知任务,虽相关但未触及 VLA 策略生成核心逻辑。
Heng Tao et al. · 提出基于学习的全身控制方法以实现移动机械臂快速灵巧抓取。侧重高速运动下的稳定控制,属具体控制算法,未体现 VLA 通用性特征。
Jiayuan Du et al. · 提出轨迹条件的稀疏占据世界模型,用于未来 3D 场景预测。属世界模型研究方向,但摘要未展示与 VLA 策略学习的直接结合路径。
Michael Hauri et al. · 改进 Dreamer 架构,通过连续确定性表示预测无需重构的世界模型。属 MBRL 底层架构优化,未明确针对 VLA 多模态输入的特殊设计。