PhyRoGen: Synthetic Generation of Physical Robot Manipulation Puzzles Using Procedural Content Generation
Lennart Julian Droß et al. · 提出基于程序内容生成的物理拼图合成方法,解决操作技能学习的数据稀缺问题。提供可复用的数据生成工具,适用于提升VLA泛化能力。
Lennart Julian Droß et al. · 提出基于程序内容生成的物理拼图合成方法,解决操作技能学习的数据稀缺问题。提供可复用的数据生成工具,适用于提升VLA泛化能力。
Richard Li et al. · 探究日常人类视频共训练对机器人策略的影响,揭示现有数据集偏差并验证普通视频的有效性。为利用大规模网络视频数据优化VLA提供实证指导。
Jiyun Jang et al. · 提出AxisGuide方法,在RGB观测中锚定动作坐标系以解决分布偏移下的执行失败。无需额外传感器,可直接集成到现有VLA推理流程中提升鲁棒性。
Pei Yang et al. · 引入体素动作热力图作为VLA的动作解码器,替代传统单点预测,增强空间动作建模能力。代码开源可能性高,可直接替换现有VLA头部进行实验。
Jinhao Wu et al. · 提出分层规划架构,先 coarse 动作令牌规划再细粒度控制,缓解长视界任务误差累积。模块化设计易于嵌入现有VLA框架,提升复杂任务成功率。
Christian Bianchi et al. · 利用权重空间元学习实现VLA模型对新任务的快速适应,避免全量微调。提供高效的领域自适应方案,适合资源受限场景下的VLA部署。
Huixi Intelligence et al. · 技术报告,识别视觉和上下文Token为边缘部署延迟瓶颈,提出优化方案。提供具体的工程优化思路,有助于降低VLA推理成本,具备即时应用价值。
Josef Chen · 引入激活探针早期预警机制作为物理AI的备份反射,防止长视界任务状态恶化。即插即用的安全模块,可增强现有VLA系统的鲁棒性和安全性。
Mengya Liu et al. · 通过潜在动作表示对齐解决VLA数据稀缺问题,提升小样本学习能力。方法直接作用于VLA训练过程,代码若开源将极大促进低资源场景研究。
Arash Akbari et al. · 提出动作引导的子4位量化方法,显著降低VLA模型计算负载。直接解决边缘部署痛点,量化方案具有高度可复用性,适合工程落地团队。
Elis Karcini et al. · 立场论文,批判单纯依赖数据扩展和模型放大的VLA范式,提出需结合其他智能形式。无具体算法或实验,属理论探讨。
Jian-Jian Jiang et al. · 通过任务编辑技术提升3D视觉运动策略的泛化性,减少对大量真实演示数据的依赖。主要贡献在于仿真环境下的策略调整机制,缺乏真实机器人验证。
Yuxiang Chen et al. · 针对四足机器人的仿真框架,旨在缩小视觉-物理现实差距。虽涉及具身智能,但聚焦于腿式机器人仿真而非VLA操作策略,应用路径不直接。
Mengze Tian et al. · 提出样条策略表示法,增强动作的几何和时间结构。虽具创新性,但主要停留在理论分析和仿真验证,未展示在主流VLA基准上的显著优势。
Xinying Guo et al. · 提出控制索引的前瞻记忆机制,帮助机器人在延迟决策中保留关键信息。概念新颖,但摘要未明确其在标准VLA基准上的性能提升及复用性。
Jindi Lv et al. · 结合视频生成世界模型与强化学习值函数,解决部分可观测性问题。侧重RL与WM结合,虽相关但非纯VLA架构改进,且缺乏实时操作证据。
Kaichen Zhou et al. · 增强视频世界模型的几何一致性,提升长期预测的物理合理性。主要贡献在WM领域,对VLA的直接赋能路径不如动作解码器类论文清晰。
Bingyi Liu et al. · 针对混合动作空间的协同混合扩散策略,侧重RL算法改进。虽可用于机器人,但摘要未强调与VLA大模型的结合或特定操作场景优势。
Ke Hu et al. · 改进生成式策略优化的似然比估计方法,提升RL效率。属基础RL算法改进,未特指VLA或机器人操作场景,通用性强但针对性弱。
Dong Tian et al. · 提出分块Critic的SAC变体,利用Transformer建模轨迹上下文。属RL算法优化,未明确应用于VLA或具身操作,与当前VLA热点关联度较低。
Abhiroop Ajith et al. · 从图像中学习符号化的STRIPS风格世界模型,用于长期规划。连接感知与符号规划,但抽象层次较高,离端到端VLA实际操作尚有距离。
Zhixian Xie et al. · 结合RL与MPC的层级框架处理灵巧操作中的接触动力学。虽涉及灵巧手,但侧重传统控制与RL结合,未体现VLA大模型的语义理解优势。
Chenyu Yang et al. · 针对灵巧手策略的真实世界高效微调方法,结合动作分块Critic和归一化流。侧重RL微调效率,非VLA预训练或架构创新,应用范围较窄。
Hoang Nguyen et al. · 探索世界模型中潜在几何结构的摊销规划,加速目标导向搜索。属WM理论深化,未直接关联VLA动作生成或机器人操作基准测试。
Jianing Qian et al. · 利用场景图扩展模仿学习的时空上下文,改善部分观测下的表现。方法有效但增量有限,且未明确在VLA大模型上的集成效果。
Xiaoou Liu et al. · 从统一MDP视角分析基础模型代理的Sim-to-Real差距。综述性质文章,提供理论框架但无具体算法或实验突破,适合背景阅读。
Jiahua Wang et al. · 构建音视频世界模型以增强具身代理的多感官想象能力。虽涉及多模态,但侧重感知与WM,未展示对VLA动作策略的直接提升或基准测试。
Jacques Raynal et al. · 表征涌现的理论研究,探讨解释不足如何驱动表示学习。纯理论工作,无具体机器人应用或VLA实验支撑。