Diffusion Policy for Coordinated Control of a Nonholonomic Mobile Base and Dual Arms in Door Opening and Passing
Shangqun Yu et al. · 将Diffusion Policy应用于非完整移动基座与双臂协同开门任务。提供了具体的多模态控制工程实现案例,展示了DP在复杂动力学约束下的应用潜力,具有直接参考价值。
Shangqun Yu et al. · 将Diffusion Policy应用于非完整移动基座与双臂协同开门任务。提供了具体的多模态控制工程实现案例,展示了DP在复杂动力学约束下的应用潜力,具有直接参考价值。
Jiaqi Bai et al. · 针对生成式视觉运动策略推理延迟高的问题,提出基于稀疏采样的加速方法。旨在解决实时控制瓶颈,若代码开源可显著降低部署门槛,属于高实用性的工程优化。
Mingtong Dai et al. · 提出动态跳过平滑运动阶段、仅在接触丰富阶段细化动作的策略。通过减少无效计算提升效率,方法直观且易于集成到现有IL框架中,具备本周复用的可行性。
Tuo An et al. · 引入反馈世界模型纠正扩散策略在分布外状态下的预测偏差。解决了WM不可靠导致引导失效的核心痛点,为结合WM与DP提供了新的技术路径,值得深入阅读。
Davide Buoso et al. · 提出几何锚点预训练方法,从RGB中提取控制相关几何特征以提升小样本学习效率。直接针对数据稀缺痛点,方法具有明确的模块化优势,便于嵌入现有VLA pipeline。
H\"useyin Arslan et al. · 提出健康条件VLA模型,使机器人能感知并适应自身物理故障。填补了VLA在鲁棒性与故障恢复方面的空白,为长期自主运行提供了新思路,具有独特的工程价值。
Vaidehi Bagaria et al. · 提出概率分块掩码以加速VLA的RL后训练,聚焦于结果发散的关键片段。直接针对VLA RL计算昂贵的痛点,方法具有明确的效率提升潜力,适合快速跟进。
Ralf R\"omer et al. · 提出通过适配器路由与扩展实现VLA的持续学习,避免灾难性遗忘。解决了VLA在多任务长期部署中的核心难题,模块化设计便于集成,具有高复用价值。
Kangye Ji et al. · 通过实时剪枝加速Diffusion Policy推理。与FLASH类似,致力于解决DP实时性瓶颈,若效果显著可为资源受限平台提供可行方案,值得对比测试。
Jianke Zhang et al. · 分析VLA训练中VLM多模态能力退化的现象并提出双流视角。揭示了微调带来的副作用,为保持VLA通用语言能力提供理论依据和潜在解决方案,极具洞察。
Jin Shi et al. · 提出离线语义引导以高效蒸馏VLA策略,降低推理成本。针对大模型部署难题,提供无需在线交互的蒸馏方案,具有明确的工程落地价值。
Shijie Lian et al. · 提出利用大规模人类第一人称视频补充机器人轨迹数据,以增强物理理解。属于数据源扩展方向,但缺乏具体VLA架构改进或Benchmark对比实验支撑其有效性。
Martin Peticco et al. · 提出一种衡量灵巧手连续操作能力的运动学指标。虽对硬件评估有价值,但属于纯度量研究,未涉及VLA算法创新或控制策略,对软件研究者紧迫性较低。
Xinggang Hu et al. · 构建开放词汇的功能性3D场景图以支持室内操作。侧重于场景表示学习,虽与Embodied AI相关,但未明确展示如何直接驱动VLA决策或提升操作成功率,应用路径不清晰。
Qian He et al. · 结合频域优化分块与局部锚定流匹配以生成连贯轨迹。方法较为新颖但摘要未提供显著的SOTA超越证据,且流匹配本身已较复杂,需正文验证其实际增益是否值得工程投入。
Yunyang Mo (The Hong Kong University of Science et al. · 利用在线人类偏好指导RL探索以解决安全与效率问题。虽涉及人机交互,但主要贡献在于RL奖励 shaping机制,未明确结合VLA大模型能力,属于传统RL改进。
Gina Wigginghaus et al. · 针对双臂绳索操作这一难点,利用遥操作数据训练仿真接地策略。虽解决特定长尾问题,但仅针对变形体线性对象,通用性有限,且依赖特定数据采集流程。
Hanwen Wang et al. · 发布MuJoCo上的灵巧操作基准测试工具包。作为数据集/基准类工作,重要但不紧急,有助于标准化评估,但对当前算法研发无直接推动作用。
Dillon Z. Chen et al. · 结合符号世界模型与双层策略解决长视界规划。方法偏向传统分层规划与符号AI,与当前主流端到端VLA范式差异较大,迁移成本较高。
Zhen Luo et al. · 通过语义-物理双系统生成仿真就绪的桌面布局。主要服务于数据合成与仿真环境构建,间接辅助VLA训练,非核心控制算法进展。
Yuxuan Zhao et al. · 比较不同遥操作设备与控制器的协同效应。属于系统工程评估类论文,缺乏算法创新,对VLA模型架构设计无直接启发。
Alessandro Adami et al. · 利用合成神经符号监督从VLM学习结构化策略。试图结合符号逻辑与端到端学习,但摘要未展示其在真实机器人操作中的性能优势,应用路径尚不明确。
Fawad Javed Fateh et al. · 提出分层时空动作Tokenizers以支持上下文模仿学习。属于动作表征层面的改进,虽有助于ICL,但缺乏与主流VLA基线的充分对比,优先级中等。
Tianqiu Zhang et al. · 提出解耦潜在动作世界模型以平衡抽象与保真度。虽涉及世界模型,但侧重视频预测质量,未明确展示其对VLA控制策略的直接增益,相关性较弱。
Weiguang Zhao et al. · 关于灵巧手智能的综述文章。虽涵盖广泛,但作为Survey不提供即时可用的新方法或代码,归类为值得了解但不紧急。
Logan Mondal Bhamidipaty (University of Edinburgh) et al. · 理论分析不完美的世界模型如何被策略利用。提供理论洞见,但缺乏具体的VLA架构改进或实验验证,对工程实践指导有限。
Fabio Rovai · 提出确定性事件图基底用于反事实推理的世界模型。侧重符号逻辑与因果推理,与当前主流基于神经网络的VLA范式差异较大,融合难度高。
Ali J Alrasheed et al. · 探讨潜空间视频预测与世界模型能力的关系。主要贡献在于评估指标与分析,未提出新的VLA控制架构,属于基础研究。
Tianqiu Zhang et al. · 受海马-内嗅皮层启发的世界模型结构抽象研究。偏向神经科学启发的算法理论,尚未转化为具体的VLA工程方案,优先级低。
Santosh Kumar Paidi · 提出实体中心的世界模型以改进因果视频预测。虽涉及物体交互,但重点在视频生成质量,未展示对机器人控制策略的提升,相关性一般。
Danny Tran et al. · 利用第三人称视频增强第一人称世界模型。属于数据利用方向,虽有趣但缺乏具体的VLA控制实验验证,应用路径不明。