What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models
Yuanfang Peng et al. · 提出视觉鲁棒的RL微调方法,通过奖励设计抑制部署时的视觉偏移干扰。提供具体的RL微调策略,可直接用于提升现有VLA模型的鲁棒性。
Yuanfang Peng et al. · 提出视觉鲁棒的RL微调方法,通过奖励设计抑制部署时的视觉偏移干扰。提供具体的RL微调策略,可直接用于提升现有VLA模型的鲁棒性。
Zixing Lei et al. · 提出VLAs-as-Tools策略,将VLA作为工具对齐以解决长视界任务的规划与执行难题。为长视界具身代理提供了新的架构思路,具有明确的工程应用路径。
Ruiheng Wang et al. · 通过块扩散微调加速自回归VLA推理,降低延迟并减少误差累积。提供具体的加速方案,对需实时部署VLA的团队具有高复用价值。
Qiwei Li et al. · 引入旋转潜在动作空间以改进LAMs在VLA预训练中的表现,解决离散动作空间的局限性。提供新的动作表示方法,有助于跨平台迁移和数据处理。
Daojie Peng et al. · 指出并修正基础模型中动作信息量不均的问题,提出新的训练范式以替代平坦的时间同质性假设。提供具体的注意力机制改进,可直接应用于VLA训练优化。
Yiran Ling et al. · 提出GTA-VLA框架,允许用户通过视觉线索引导机器人策略,实现空间可导向的具身推理。增强VLA的交互性和可控性,提供新的推理范式。
Bin Yu et al. · 提出FrameSkip策略,从密集演示中筛选高信息量帧进行训练,提高数据效率。提供简单有效的数据采样方法,可立即应用于VLA训练流程以节省算力。
Jiahui Niu et al. · 提出FLASH推测推理框架,解决扩散VLA的高延迟问题,实现实时部署。提供具体的工程优化方案,显著降低推理成本,极具实用价值。
Zuojin Tang et al. · 提出代数一致的潜在动作模型ALAM,利用无标签视频数据增强VLA预训练。提供新的数据利用方式,有助于缓解动作标注数据稀缺问题。
Jianyi Zhou et al. · 发布TouchAnything数据集及框架,从第一人称视频估计双臂触觉信息。填补触觉VLA数据空白,为多模态触觉对齐提供关键资源。
提出语义接触引导的灵巧抓取方法,结合物理稳定性与语义任务指导。虽涉及操作但缺乏VLA架构或大规模泛化实验,属于传统操作控制范畴。
Yunheng Wang et al. · 分析VLN从仿真到真机部署的性能下降原因,主要归因于感知不稳定性。属于导航领域分析,虽相关但非VLA核心架构创新,且缺具体新算法。
Yicheng Ma et al. · 提出SID方法利用少量演示实现鲁棒操作,结合端到端策略与规划优化。虽有效但侧重传统操作控制,未明确结合VLA大模型架构,故归为值得了解。
Xingyu Wang et al. · 提出双臂协调感知与控制框架,解决单臂到双臂扩展的挑战。侧重控制架构而非VLA语言对齐,虽重要但非VLA核心进展。
Harold Haodong Chen et al. · 通过规划器与模拟器协同进化解决数据稀缺问题,利用视频生成模型合成数据。侧重数据合成与仿真,虽相关但未直接改进VLA核心架构。
Yucheng Guo et al. · 构建分布式异步RL框架以支持大规模VLA训练。侧重系统工程与训练基础设施,虽重要但非算法层面的核心突破,归为值得了解。
Shivansh Patel et al. · 提出RIGVid系统,仅通过模仿AI生成视频进行复杂操作,无需物理演示。概念新颖但依赖视频生成质量,且缺乏真实机器人大规模验证,暂归为值得了解。
Jianke Zhang et al. · 结合JEPA架构统一连续与离散表征学习以增强机器人策略。侧重表征学习方法,虽与VLA相关但未明确展示其在多模态指令跟随上的优势。
Sicheng Xie et al. · 提出基于相机帧的统一动作表示,解决跨平台学习中的语义不一致问题。侧重动作空间定义,虽为基础工作但缺乏VLA大模型层面的整合实验。
Jessie Yuan et al. · 提出不确定性感知的策略转向机制,通过验证器选择对齐任务的动作。侧重部署时的策略调整,虽有用但未深入VLA内部推理机制。
Kangye Ji et al. · 提出分块自适应缓存加速扩散策略推理,减少重复去噪步骤的计算开销。侧重Diffusion Policy的工程优化,虽高效但非VLA架构创新。
Zini Chen et al. · 提出异质性感知的扩散模型生成高密度室内场景,服务于具身AI仿真环境构建。属数据/仿真生成领域,非VLA核心算法。
Mohammad Sadegh Salehi et al. · 发布AmaraSpatial-10K数据集,提供空间与语义对齐的3D资产。属重要资源贡献,但本身非方法论创新,归为值得了解。
Karim Othman et al. · 发布FactoryNet工业时间序列数据集,涵盖多种实体和任务。属数据资源,虽规模大但非VLA视觉-语言-动作核心进展。
Senthil Palanisamy et al. · 提出MobileEgo基础设施,利用商用硬件采集长视界第一人称数据。属数据收集工具/数据集,虽对VLA训练有价值但非算法创新。
Willow Mandil et al. · 提出多模态世界模型同时预测视觉与触觉,提升物理交互准确性。侧重世界模型与触觉融合,虽相关但未结合VLA语言指令层面。
Liang Heng et al. · 提出ViTacFormer学习视触跨模态表征以支持灵巧操作。侧重表征学习与触觉,未涉及VLA的语言指令遵循能力。
Mingwei Li et al. · 提出棱镜世界模型学习混合系统中的组合动力学,用于规划。侧重模型基强化学习与世界模型,非VLA核心架构。
Vardhan Dongre et al. · 通过对话对齐世界模型以实现具身多智能体协作。侧重多智能体通信与协作,虽具身但未聚焦VLA单智能体的感知-行动映射。
Zongyue Li et al. · 提出扩散动作世界模型用于离线RL,通过动作推断转移。侧重离线RL与世界模型,未结合VLA的多模态指令理解。
Jing Yu Lim et al. · 提出JEDI联合嵌入扩散世界模型用于在线MBRL。侧重世界模型与RL,未结合VLA的语言指令输入。
Valentin Six et al. · 利用语言模型先验学习POMDP世界模型,侧重部分可观测环境下的建模。虽用LLM先验但未形成完整的VLA闭环控制。
Fairoz Nower Khan et al. · 将流匹配应用于离散动作的离线RL,扩展了生成策略的应用范围。侧重RL算法,未结合VLA多模态特性。