$\pi$-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs
提出流匹配 VLA 在线 RL 自适应步长方法。解决宽动作空间不稳定问题。显著提升 RL 微调效率,代码可用。
提出流匹配 VLA 在线 RL 自适应步长方法。解决宽动作空间不稳定问题。显著提升 RL 微调效率,代码可用。
无需训练的扩散策略动态校正方法。推理阶段修正动作块。立即提升鲁棒性,工程落地价值高,本周可集成。
利用 Mamba 压缩触觉历史适配 VLA。桥接快速反射与慢速推理。高效触觉融合方案,支持灵巧操作任务。
基于均值流的单步 VLA 生成方法。大幅降低推理延迟。兼容现有流模型,即插即用提升部署速度。
诊断并修复 VLA 语言对齐缺陷。提升指令跟随准确率。解决语言泛化瓶颈,提供对齐工具包。
通用机器人奖励模型缩放方法。通过轨迹比较训练。适用于 VLA RLHF 微调,但非 VLA 架构核心。
目标条件 RL 的课程规划方法。动态对比控制。属于标准 RL 改进,无 VLA 架构创新。
反事实偏好标签用于避障。导航策略特定优化。与通用 VLA 操作任务关联度较低。
神经隐式动作场表示。离散转连续函数。表示学习改进,缺乏基准 SOTA 验证。
运动学修正的推测解码。加速 VLA 推理。效率优化方法,但单步生成更具颠覆性。
少shot 机器人序列检索。可扩展学习。检索增强标准应用,无新 VLA 范式。
关键帧链式长程操作。非马尔可夫规划。分层规划常见方法,增量改进。
具身 LLM 越狱攻击分析。动作级操纵。安全对齐分析,非架构推进。
混合动作空间 TD3 改进。过估计偏差分析。通用 RL 算法,非 VLA 特定。
记忆依赖操作基准。策略设计洞察。基准评测论文,重要但不紧急。
可微分实 - 仿 - 实引擎。灵巧抓取学习。仿真工具链,非 VLA 模型。
动态动作模型 VLA 框架。摘要缺乏具体技术路线。疑似已有方法简单组合,无实质创新。 [💧灌水]
极简柔顺控制。安全物理交互。底层控制策略,非 VLA 策略。
统一灵巧手操作 VLM。物理可行规划。VLM 应用,无新架构。
任务引导 Mixup 数据增强。采样效率提升。将标准 Mixup 增强迁移至 VLA。无差异化创新。属于机械移植模式,预期收益微小。 [💧灌水]
3DGS 增强 RAG 零shot 操作。组合 3DGS 和 RAG buzzwords 用于机器人操作。无新 VLA 架构贡献。典型移植论文,缺乏深度分析。 [💧灌水]
水弹性剪切触觉仿真。触觉 Sim2Real。仿真工具,非模型架构。
形态嵌入 Transformer。跨机器人策略。跨具身泛化方向,但方法较标准。
从预训练视频模型学物理。世界交互模型。世界模型方向,增量工作。