Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control
Yuxuan Gao et al. · 提出基于漂移的单步策略优化方法,解决多步生成策略推理慢的问题,实现原生单步动作生成。代码若开源可立即用于加速现有 Diffusion Policy 部署。
Yuxuan Gao et al. · 提出基于漂移的单步策略优化方法,解决多步生成策略推理慢的问题,实现原生单步动作生成。代码若开源可立即用于加速现有 Diffusion Policy 部署。
Jason Chen et al. · 利用视频扩散模型生成双臂机器人训练数据,解决真实数据稀缺和视角单一问题。为双臂 VLA 训练提供低成本数据增强方案,本周可尝试集成。
Yuanchang Liang et al. · 提出推理时自适应动作分块策略,动态调整执行序列长度以平衡响应速度与稳定性。直接优化 VLA 推理延迟,工程价值高且易复用。
Jiajun Zhai et al. · 引入事件相机数据增强 VLA 在低光和模糊场景下的感知鲁棒性。解决极端光照下 VLA 失效痛点,传感器融合方案具明确落地价值。
Wencheng Ye et al. · 提出动作引导的自蒸馏方法压缩 VLA 模型,降低计算开销与推理延迟。针对部署瓶颈的直接优化,若开源将极具工程实用价值。
Chenyu Yang et al. · 结合动作分块评论家与归一化流,实现样本高效的真实世界灵巧策略微调。直接解决真机微调成本高痛点,方法具体可复用。
Haotian Xiang et al. · 针对多目标跟踪的扩散策略改进,引入贝叶斯专家选择平衡探索与利用。虽涉及移动机器人,但侧重感知跟踪而非 VLA 核心操作架构,应用路径较窄。
Enes Ulas Dincer et al. · 提出基于 XR 的多视角 3D 遥操作系统,改善深度感知。属于遥操作硬件/交互系统创新,非 VLA 算法或策略学习核心进展。
Pierrick Lorang et al. · 结合视觉语言引导与神经符号方法进行少样本模仿学习。方法相邻但依赖特定符号抽象,缺乏明确 VLA 架构改进或大规模实验验证。
Mingyang Xie et al. · 揭示 LLM 控制机器人系统中的结构化后门攻击风险,聚焦安全对齐。虽重要但属安全攻防研究,非 VLA 性能或架构提升。
Zhongru Zhang et al. · 评估前沿视频生成模型(Veo-3)在机器人操作中的泛化能力边界。属探索性分析报告,未提出新 VLA 架构或显著超越 SOTA 的方法。
Rongfeng Zhao et al. · 提出分层语义 - 物理框架解决多智能体协作中的语义执行鸿沟。侧重多智能体系统架构,非单机器人 VLA 核心策略创新。
Aniruddh G. Puranic et al. · 利用时序行为树引导轨迹修复以从不完美的演示中学习。方法传统,主要结合行为树与 IL,缺乏 VLA 端到端学习的创新性。
Yifu Yuan et al. · 试图桥接视觉推理与决策执行,摘要描述较为宏观,缺乏具体架构细节或量化实验支撑,疑似概念性论文。
Yifu Yuan et al. · 提出基于强化学习的具身推理方法,使用“指向”作为中间表示。思路有趣但摘要未展示显著优于现有 R1 类方法的实验结果。
Dantong Niu et al. · 受儿童认知启发,通过与随机玩具交互学习通用抓取技能。理念新颖但摘要缺乏具体算法实现细节和多基准对比数据。
Yuanzhe Liu et al. · 引入功能可供性推理进行长程任务的进度感知策略学习。针对长程任务痛点,但需进一步确认其在复杂基准上的实际增益。
Xin Wu et al. · 发布双臂具身任务的多流多模态协调基准 ST-BiBench。重要数据集资源,但属评测工具而非算法突破,供后续研究使用。
William Chen et al. · 研究可引导的 VLA 策略以实现分层控制。标题宏大但摘要未明确“可引导”的具体技术机制及相比基线的显著提升。
Tenny Yin et al. · 通过自主玩耍学习机器人世界模型,旨在构建通用模拟器。方向前沿(世界模型),但摘要未展示超越现有视频预测模型的具体指标。
Siddharth Srikanth et al. · 通过多样化提示生成对 VLA 进行红队测试以提升鲁棒性。聚焦 VLA 安全性与指令敏感性,属对齐与安全研究方向。
Hangxing Wei et al. · 学习具有加法组合结构的潜在动作以利用互联网视频数据。理论上有吸引力,但需验证其在真实机器人任务中的泛化效果。
Ravi Ranjan et al. · 提出 VLA 模型的“遗忘”机制以移除不安全或隐私敏感行为。填补 VLA 安全卸载空白,属新兴的安全对齐子方向。
Yude Zou et al. · 生成人体 - 物体 - 场景交互数据,服务于仿真与动画。虽可用于数据增强,但核心贡献在于生成模型而非机器人策略学习。
Viet Dung Nguyen et al. · 利用偏好遗憾优化少样本下的神经机器人策略。方法针对数据稀缺问题,但摘要未展示在标准 VLA 基准上的对比优势。
Rui Yan et al. · 提出人机副驾驶模式以提高模仿学习效率,处理 OOD 状态。交互模式创新,但需更多实验证明其对 VLA 训练的普适增益。
Juhan Park et al. · 从稀疏分类指导中学习灵巧抓取,减少密集标注依赖。针对灵巧手操作的数据效率问题,但技术路线较为常规。
Junyi Zong et al. · 融合视觉、触觉与语言的质检模型,识别材料表面属性。垂直领域应用(制造质检),非通用 VLA 基础架构研究。
Zijie Zhao et al. · 利用序列世界模型赋能多机器人协作。侧重多智能体 MBRL,非单机器人 VLA 核心架构或策略创新。
Yunshuang Li et al. · 学习几何感知的非抓取式推拉操作,扩展灵巧手技能边界。具体操作技能研究,缺乏 VLA 层面的通用性突破。
Yeonwoo Cha et al. · 提出无需训练的基于散度的采样方法优化 Flow Matching。纯生成模型算法改进,未明确展示在机器人策略任务上的应用效果。
Mehran Aghabozorgi et al. · 结合隐式最大似然估计构建不确定性感知世界模型,提升连续控制样本效率。MBRL 方向进展,与 VLA 直接关联度一般。
DataFlow Team et al. · 推出统一的世界模型代码库与定义标准。基础设施类工作,有助于规范化研究,但本身非算法创新。
Tommie Kerssies et al. · 利用增量 token 高效生成世界模型,降低视频预测计算量。视频建模效率优化,需进一步验证在机器人控制闭环中的表现。
Qi Wang et al. · 学习解耦世界模型以从干扰视频中迁移语义知识。提升 RL 在变化环境中的鲁棒性,但非 VLA 专属架构创新。
Quan Dao et al. · 提出多 patch 全局到局部 Transformer 架构加速扩散与流匹配模型。底层生成模型架构优化,尚未体现机器人领域特异性。
Yucen Wang et al. · 协同进化潜在动作世界模型,改进视频生成模型的可控性。世界模型方向进展,但需更多机器人任务验证其有效性。