World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems
Runze Li et al. · 提出 WVA 新范式,将价值函数隐式规划引入 VLA,解决直接动作预测缺乏推理能力的瓶颈。标题明确指向 VLA 系统改进,若实验验证多任务泛化将显著超越当前 OpenVLA/RT-2 架构。
Runze Li et al. · 提出 WVA 新范式,将价值函数隐式规划引入 VLA,解决直接动作预测缺乏推理能力的瓶颈。标题明确指向 VLA 系统改进,若实验验证多任务泛化将显著超越当前 OpenVLA/RT-2 架构。
Zhuo Li et al. · 提出无需微调的即插即用推理时策略引导框架,利用具身进化扩散解决部署性能下降核心痛点。若真能免除 fine-tuning 实现零样本部署,将彻底改变 VLA 落地范式。
Ziyu Shan et al. · 提出新型演示生成方法以提升移动操作数据效率,解决导航与操作两阶段范式痛点。代码开源后可直接用于移动机械臂策略训练,本周内可复现数据增强流程。
Fawad Javed Fateh et al. · 设计分层时空动作分词器优化上下文模仿学习,通过两级矢量量化压缩动作序列。为 ACT/Diffusion Policy 提供即插即用模块,显著提升长序列任务推理速度与精度。
Haonan Chen et al. · 提出多模态策略共识机制替代简单特征拼接,解决触觉/视觉信号主导失衡问题。针对接触丰富操作任务提供新融合架构,适合触觉 VLA 研究者本周集成测试。
Tianyu Li et al. · 结合力场引导与 Flow Matching 学习顺应性策略,专攻接触丰富操作难题。提供从仿真到真实的力控策略迁移路径,触觉操作团队可直接复用其力觉数据处理管线。
Tomoya Kamimura et al. · 针对双足机器人被动动力学利用的模型强化学习研究,聚焦于行走/跑步生成。虽涉及具身智能,但属于传统腿式机器人控制范畴,非 VLA 架构或感知 - 语言 - 动作对齐核心方向。
Anukriti Singh et al. · 利用功能可供性指导关键点选择以减轻计算负载,属于轻量级操作策略优化。方法创新有限,主要是现有关键点方法与 affordance 的结合,缺乏颠覆性架构突破。
Balakumar Sundaralingam et al. · cuRobo 升级版,引入深度融合距离场提升高自由度机器人运动生成质量。属于底层运动规划器工程迭代,虽对部署重要但非 VLA 策略学习或架构层面的核心进展。
Yiyuan Pan et al. · 尝试从视觉运动轨迹中学习符号结构以解决长程任务,结合神经符号方法。方向有价值但目前多为原理验证,缺乏在复杂 VLA 基准上的完整对比与消融实验支撑。
James Wang et al. · 关注灵巧操作数据采集接口与质量比率优化,旨在解决数据瓶颈。主要贡献在于数据采集范式和硬件接口设计,属于基础设施构建,非算法架构层面的直接突破。
Han Zhang et al. · 构建手术室高保真数字孪生环境供具身 AI 研究,属于特定领域仿真数据集与环境构建。对医疗机器人有价值,但通用 VLA 研究者复用路径不明确,归为值得了解。
Jongbin Lim et al. · 发布大规模灵巧手抓取多模态数据集,涵盖人与多种机器人手型。数据资源丰富但属数据集论文,需配合具体算法论文才能产生直接方法论影响,暂归值得了解。
Joonho Koh et al. · 提出低成本力反馈接口用于灵巧手数据采集,解决遥操作设备昂贵痛点。硬件与采集方案创新,对数据收集有帮助,但非 VLA 算法架构或训练范式的直接贡献。
Team HY-World et al. · 多模态世界模型框架升级,支持多种输入生成 3D 世界。虽名为世界模型,但侧重重建与生成而非用于策略学习的动态预测,离 VLA 闭环控制尚有距离。