Demonstrate once, execute on many: Kinematic intelligence for cross-robot skill transfer
Sthithpragya Gupta et al. · 提出基于运动学智能的跨机器人技能迁移方法,解决不同构型机器人间的策略复用问题。提供具体的迁移框架,可直接应用于多平台部署场景。
Sthithpragya Gupta et al. · 提出基于运动学智能的跨机器人技能迁移方法,解决不同构型机器人间的策略复用问题。提供具体的迁移框架,可直接应用于多平台部署场景。
引入几何与物理线索增强VLA训练数据标注,提升复杂环境下的语义理解能力。提供改进的数据处理管道,有助于提升VLA在大规模场景中的泛化性。
针对VLA对环境微小变化敏感的问题,提出测试时扰动学习与延迟反馈机制。该方法可即插即用,显著提升推理阶段的鲁棒性。
Wenyao Zhang et al. · 通过分离前向与逆向动力学预训练,解耦2D图像预测与3D动作预测的对齐难题。为改善VLA视觉-动作纠缠提供新的训练范式思路。
Lingling Chen et al. · 构建不确定性引导且具备失败感知能力的VLA框架,解决传统VLA缺乏置信度校准的问题。提供具体的失败检测模块,增强实际部署安全性。
Gehan Zheng et al. · 提出在线失败检测与状态重生机制,专门解决长视界模仿学习中的漂移问题。代码/方法易于集成到现有IL流程中,提升任务完成率。
Siyuan Luo et al. · 通过GPU加速仿真实现分钟级柔性物体操作学习,突破接触丰富仿真的计算瓶颈。提供高效的Sim2Real训练管道,适用于柔性操控场景。
Haoxiang Jie et al. · 结合空间理解与在线强化学习的VLA模型,旨在解决多模态融合不稳定及空间感知不精确问题。提供端到端的RL微调方案,具有较高复现价值。
Tingzheng Jia et al. · 提出轨迹锚点与残差修正协同机制,分离宏观路径规划与微观执行校正。该方法可模块化嵌入现有VLA架构,提升精密操作性能。
Tuan Van Vo et al. · 通过教师引导微调增强VLA的多模态推理意识,改善策略对复杂指令的理解。提供具体的SFT策略,有助于提升模型的逻辑一致性。
Kuanning Wang et al. · 注入对象感知的时间流匹配机制,使VLA能预测场景演化并识别关键物体。相比单帧预测,显著增强了对动态环境的鲁棒性。
Chuanhao Ma et al. · 构建结构化时空VLA,将细粒度时空知识显式嵌入视觉与动作表示中。针对现有方法时空建模不足的问题,提供改进的网络结构设计。
Kerui Li et al. · 通过时空细化稳定逆动力学模型,解决机械臂截断导致的性能下降问题。作为VLA底层组件的优化方案,具有明确的工程应用价值。
Borong Zhang et al. · 通过约束学习实现VLA的安全对齐,降低部署中对环境与人类的伤害风险。提供具体的安全约束损失函数,可直接用于提升模型安全性。
Niklas Funk et al. · 以划火柴为例,实证触觉传感在模仿学习中的关键作用。为触觉VLA研究提供具体的实验案例与方法论支持,填补灵巧操作空白。
Haoming Ye et al. · 从真实演示中预训练统一PDDL域,解决LLM/VLM在长视界规划中的符号接地问题。提供规划层与执行层的接口方案,增强任务泛化性。
Salma Mozaffari (Princeton University) et al. · 利用扩散策略解决建筑施工中因公差积累导致的接触丰富装配难题。提供特定工业场景下的解决方案,具有明确的工程落地路径。
Zhihao Zhan et al. · 识别并解决VLA中的“模态崩溃”现象,提出稳定的语言引导机制。针对语言指令扰动导致的性能下降提供有效的正则化方法。
Azuki Kim · 提出两阶段边界聚焦采样框架,用于自适应发现机器人策略的失效模式。为工业级策略部署前的风险评估提供自动化工具。
Runze Li et al. · 引入世界-价值-动作模型,通过隐式规划增强VLA的长期决策能力。区别于直接动作预测,提供基于价值函数的推理新范式。
Cheng Yin et al. · 诊断并增强VLA的链式思维推理能力,明确CoT在何种情况下有效。提供改进的推理模块设计,避免盲目增加计算开销。
Jose Barreiros et al. · 深入分析大型行为模型在灵巧操作中的表现与局限性,提供详细的实证研究。虽无新算法,但对理解当前SOTA瓶颈极具参考价值。
Xueyao Chen et al. · 发布面向真实世界长视界任务的评估基准LongBench,填补现有仿真基准的不足。虽非新方法,但为评估VLA长期规划能力提供重要工具。
Xianhao Wang et al. · 提出结合因果推理与具身交互的基准COIN,强调动态环境中的信息获取与计划更新。侧重于评估体系创新,而非具体控制算法。
Kun Wang et al. · 利用超图引导VLM进行程序性规划,捕捉物体属性间的隐式空间关系。主要贡献在于规划层的结构优化,与底层VLA控制有一定距离。
Haiweng Xu et al. · 揭示标准基准与真实物理智能之间的系统性错位,质疑当前VLA的“推理”能力。属于批判性分析工作,对研究方向有警示意义但无新算法。
Alex Mitrevski et al. · 发布包含成功与异常执行的咖啡制备数据集,弥补现有数据集仅含成功轨迹的缺陷。为训练鲁棒性VLA提供高质量负样本资源。
Yubai Wei et al. · 实证研究显式物理可行性约束对VLA学习的影响,提供深入的消融分析与洞见。虽无新架构,但对理解物理先验的作用至关重要。
Weipeng Zhong et al. · 发布大规模可模拟室内场景数据集InternScenes,强调布局多样性与真实性。为VLA训练提供丰富的仿真环境基础,属重要基础设施。