AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents
提出基于缓存的异步规划机制,利用任务计划局部性减少LLM调用延迟。提供降低Embodied Agent推理成本的具体工程方案,可直接集成至现有VLA推理管道。
提出基于缓存的异步规划机制,利用任务计划局部性减少LLM调用延迟。提供降低Embodied Agent推理成本的具体工程方案,可直接集成至现有VLA推理管道。
针对Flow-based VLA推理效率低的问题,提出粗到细的动作生成策略。显著改善实时控制下的效率-质量权衡,为部署高性能VLA提供新架构思路。
设计即插即用的边缘适配器以解决云端VLA部署中的网络抖动和延迟问题。通过异步处理机制保障导航稳定性,为云边协同VLA系统提供实用工程组件。
Suning Huang et al. · 识别并解决小样本微调导致的VLA指令跟随能力丧失(Lock-in)问题。提出保持可控性的训练策略,对实际场景中定制化VLA部署具有直接指导意义。
Jimin Lee et al. · 提出模块化感官流以整合触觉等物理反馈至VLA模型。解决多模态对齐难题,为提升灵巧操作性能提供可复用的架构模块,填补触觉VLA方向空白。
Teng Xue et al. · 提出管状扩散策略用于接触丰富操作,融合视觉与触觉反馈。针对灵巧操作痛点,提供具体的多模态策略学习方法,具备较高的实操参考价值。
Haoming Xu et al. · 将操作解耦为移动和操作两个阶段,模拟人类行为模式。简化VLA策略学习难度,提升复杂任务成功率,为分层控制提供新的VLA实现范式。
Siyao Xiao et al. · 通过层混合和元技能技术增强VLM的可泛化操作能力,避免灾难性遗忘。提供在不重新训练整个模型情况下提升性能的轻量级微调方案。
Kaijun Zhou et al. · 深入分析VLA在不同XPU硬件上的部署约束与加速潜力。提供详细的性能基准和优化建议,为边缘端VLA落地提供关键的工程洞察。
Charles Xu et al. · 提出RL Token机制以引导VLA模型进行在线强化学习微调。解决VLA精调中的数据效率问题,为结合SFT与RL提供实用的技术路径。
Zihao Zheng et al. · 结合运动学校正的推测解码技术,显著提升VLA推理速度。解决VLA部署中的延迟瓶颈,提供可立即应用的加速算法,工程价值高。
Zihao Zheng et al. · 设计多因素感知的云边协同部署框架以优化VLA资源分配。解决大规模VLA在实际部署中的计算与通信瓶颈,提供系统级解决方案。
Soham Kulkarni et al. · 提出基于平滑度的数据质量指标以筛选高质量演示数据。虽对BC训练有益,但缺乏在主流VLA基准上的直接验证,属于数据预处理层面的改进。
Ziyao Wang et al. · 综述VLA领域的数据基础设施、数据集及基准现状。指出数据引擎是未来关键瓶颈,适合快速了解领域数据生态,无具体新方法贡献。
Yifan Han et al. · 探索从人类视频到机器人动作的迁移,引入工具-目标可供性概念。方法新颖但主要依赖仿真或特定设置,未展示在LIBERO等标准VLA基准上的广泛泛化能力。
Yihang Li et al. · 发布大规模第一人称真实世界任务数据集。虽有助于缓解数据稀缺,但作为纯数据集论文,需结合具体算法验证其价值,暂归为值得了解。
Qi Li et al. · 系统梳理VLA模型的安全威胁、评估方法及防御机制。属于安全领域的综述与框架探讨,对构建鲁棒系统重要,但非核心算法突破。
Yifan Xie et al. · 从大规模人类演示中学习意图先验以辅助机器人操作。方法侧重于意图推断而非端到端VLA控制,实验验证主要集中在特定子任务上。
Qianzhong Chen et al. · 针对长视界操作提出阶段感知的奖励建模方法。虽涉及RL优化,但主要贡献在于奖励函数设计,且实验场景较为特定,通用性待验证。
Jonas Bode et al. · 扩展潜在3D扩散模型以支持语言条件多任务操作。主要在仿真环境中验证,缺乏真实机器人数据的支撑,属于方法论的延伸。
Byung-ju Kim et al. · 通过语义感知下采样加速模仿学习执行。侧重于数据处理与训练效率,对VLA核心架构创新贡献有限,属于工程优化类工作。
Zihao Zheng et al. · 提出混合推测解码方法以加速VLA推理。与KERV高度相似,均为推测解码在VLA中的应用,创新性相对较弱,视为同类工作的补充。
Zunzhe Zhang et al. · 将生成控制视为优化问题,提出时间无条件流匹配方法。理论贡献突出,但实验主要集中于简单操作任务,未充分展示在复杂VLA场景下的优势。
Zhijun Li et al. · 提供从全景图快速生成3D仿真场景的方法。服务于机器人仿真环境构建,间接支持VLA训练,非直接的控制算法或模型改进。
Mathilde Kappel et al. · 探索铰接物体操作的多样化轨迹基元。侧重运动规划与传统控制,未体现VLA模型的端到端特性或语言引导能力。