ELAN4D: Embodiment-Centric 4D Supervision for Vision-Language-Action Models via Plug-and-Play Adaptation
Zeyuan He et al. · 提出基于4D时空监督的VLA适配模块,通过显式建模未来动力学解决现有VLA仅依赖当前观测的局限性。提供即插即用接口,便于在现有VLA架构中快速集成以增强时序推理能力。
Zeyuan He et al. · 提出基于4D时空监督的VLA适配模块,通过显式建模未来动力学解决现有VLA仅依赖当前观测的局限性。提供即插即用接口,便于在现有VLA架构中快速集成以增强时序推理能力。
Anya Singh et al. · 研究原语感知训练如何促进VLA的少样本迁移,通过子空间分解降低新任务微调成本。为工业场景下低成本部署VLA提供了具体的训练范式改进和理论依据。
Junyang Shu et al. · 提出视觉特征锚定的价值估计方法,缓解Embodied RL中状态空间稀疏导致的训练困难。为VLA模型的RL精调阶段提供了更稳定的奖励信号构建方案,具有直接应用价值。
Seongheon Park et al. · 开发运行时监控机制,通过分析轨迹中的隐藏失败信号提升VLA部署可靠性。提供了一套无需重新训练即可检测并干预VLA执行错误的工程化解决方案。
Zijian Zhu et al. · 利用RL生成高质量演示数据以解决VLA训练数据稀缺问题。提供了一种自动化数据增强 pipeline,可直接用于扩充现有VLA数据集,提升策略鲁棒性。
Xiang Zhu et al. · 提出人机对齐表示学习方法,解决从人类视频到机器人执行的跨具身差异问题。通过潜在动作模型缩小模态鸿沟,为利用互联网规模人类视频数据训练VLA提供可行路径。
Taiyi Su et al. · 专注于可变形物体操作的VLA基础模型,旨在解决折叠等复杂任务的泛化难题。针对家庭服务机器人痛点,提供了专门针对非刚性物体处理的架构优化与实验结果。
Yue Wang et al. · 开源PyTorch实现的批量化可微刚体动力学库BARD,解决CPU瓶颈加速GPU训练。为大规模RL和VLA训练提供底层基础设施支持,本周即可集成至现有训练流水线。
Anya Singh et al. · 提出校准 abstention 机制,当所有候选动作均不安全时允许VLA拒绝执行。增强了VLA在开放世界部署中的安全性与可靠性,提供简单的推理时安全护栏实现。
Xiang Zhu et al. · 探索将人类演示视频作为提示输入VLA以实现零样本泛化,减少对遥操作数据的依赖。提供了一种新颖的条件注入方式,有助于提升VLA对新任务的即时适应能力。
Dong Jing et al. · 分析动作分块长度(Horizon)对VLA性能的影响,提出混合Horizon策略以平衡短期精确性与长期规划。为VLA训练超参数选择提供实证指导,易于复现与应用。
Zhiyu Huang et al. · 提出“思考即控制”架构,解耦VLA中的高层推理与底层反应式控制,适应动态环境导航。解决了传统VLA在实时性要求高场景下的延迟与稳定性矛盾。
Sanjay Haresh et al. · 引入Scratchpad机制增强VLA的记忆能力,处理非马尔可夫性质的灵巧操作任务。通过中间思维链记录历史状态,显著提升长程依赖任务的执行成功率。
Zhaofeng Hu et al. · 针对组合语言指令下的精确放置难题,提出目标条件的VLA策略实现零样本槽位级放置。突破了端到端VLA在空间关系理解上的局限,适用于精密装配场景。
Fawad Javed Fateh et al. · 设计分层时空动作Tokenizers,优化上下文模仿学习中的动作表示效率。通过多级矢量量化压缩动作空间,提升VLA在处理长序列演示时的上下文窗口利用率。
Jinhao Zhang et al. · 从频域视角重构3D扩散策略,去除冗余高频噪声以加速采样并提升控制平滑度。为Diffusion Policy提供轻量化改进方案,显著降低推理计算开销。
René Zurbrügg et al. · 结合VR沉浸式数据采集与不确定性引导的在线修正,解决分布式偏移导致的数据质量问题。提供一套高效的人机协作数据收集流程,可直接用于提升VLA训练数据质量。
Kaichen Zhou et al. · 引入几何约束增强视频世界模型,确保生成未来帧的物理一致性与点跟踪准确性。为VLA提供更具物理 grounding 的世界模型组件,提升预测可靠性。
Weizhe Ni et al. · 探讨通过快速更换末端执行器而非增加手指自由度来提升操作灵巧性的硬件策略。虽涉及机器人操作,但侧重于机械设计与简单控制,缺乏VLA模型层面的深度贡献。
Nikola Raicevic et al. · 针对非预抓取操作提出分层MPPI控制框架,结合物体信息指导规划。属于传统控制与优化方法,未涉及VLA架构或端到端学习,与核心VLA研究方向关联较弱。
Ryan Yu et al. · 技术报告,评估大规模预训练VLA在未进行任务特定微调下的基础能力。填补了关于VLA零样本泛化边界的实证数据空白,对理解预训练上限有参考价值。
Tianle Zeng et al. · 评估空中VLA在地空协作中的能力,引入CARLA-Air基准测试。主要贡献在于仿真环境构建与多智能体协作评估,缺乏真实机器人验证及核心算法创新。
Yuhang Jiang · 发布用于主动实例验证的离线具身基准PInVerify,关注细粒度属性识别。作为评估工具重要,但本身不包含新的VLA算法或训练方法,归类为值得了解的资源。
Hrishikesh Viswanath et al. · 提出平滑值学习方法以改善离线GCRL在状态覆盖不足时的估计偏差。虽涉及RL价值函数,但未明确结合VLA架构或语言条件,属于通用RL算法改进。
Adam J. Thorpe et al. · 论证世界模型应具备回答干预查询的能力,提出查询条件的具身AI框架。偏向理论探讨与概念验证,缺乏具体VLA架构实现与大规模基准对比。
Cheng Qian et al. · 探讨LMMs在开放式环境中发现视觉接地解决方案的创造力。侧重认知科学与大模型能力边界分析,未提出具体的机器人控制算法或VLA架构改进。
Jiacheng Lu et al. · 提出免训练的推理加速方法,优化交互式视频世界模型的生成速度。主要贡献在视频生成效率,虽提及具身AI应用,但核心技术与VLA策略学习关联度低。