A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation
Kai Chen et al. · 引入检索增强框架提升VLM的空间感知能力,解决物体中心操作中的空间理解瓶颈。方法可直接集成到现有VLA pipeline中,增强零样本泛化能力。
Kai Chen et al. · 引入检索增强框架提升VLM的空间感知能力,解决物体中心操作中的空间理解瓶颈。方法可直接集成到现有VLA pipeline中,增强零样本泛化能力。
Yifei Wei et al. · 提出异步粗到细双系统架构以平衡VLA训练,解决单模态生成的局限性。提供新的VLA训练范式思路,代码开源可能性高,适合快速复现验证。
Yufei Jia et al. · 发布基于3D Gaussian Splatting的高通量仿真平台,支持视觉驱动的机器人学习。填补高保真、低成本仿真数据生成空白,可直接用于VLA预训练数据扩充。
Xiaoshuai Hao et al. · 开源MiMo-Embodied模型,统一自动驾驶与具身AI任务,刷新17个基准记录。作为技术报告,提供强大的基线模型和跨域迁移经验,极具工程参考价值。
Jiazhi Yang et al. · 结合组合世界模型实现策略自改进,解决VLA在接触丰富任务中的脆弱性。提供RL精调的新路径,方法模块化强,易于嵌入现有VLA框架进行性能提升。
Yi Chen et al. · 通过潜在世界建模解耦意图与动作,优化端到端VLA的决策逻辑。针对VLM编码器局限提出新架构,显著提升复杂指令遵循能力,具有明确的复用价值。
Hojoon Kim et al. · 提出缓存驱动异步规划机制,降低LLM在具身代理中的延迟与成本。利用计划局部性优化推理效率,工程洞见明确,可立即应用于VLA部署优化。
Kai Yang et al. · 设计即插即用的边缘适配器AsyncShield,解决云端VLA导航的网络抖动问题。提供实用的部署解决方案,显著改善实时性,具备高工程复用价值。
Kaijun Zhou et al. · 系统表征VLA在不同XPU上的部署约束与加速效果,填补移动端评估空白。提供详细的硬件适配指南和优化策略,对实际落地至关重要。
Fan Du et al. · 提出粗到细的动作生成策略CF-VLA,解决流匹配VLA的多步推理低效问题。显著提升推理速度同时保持精度,方法简洁有效,适合实时控制场景。
Byung-ju Kim et al. · 提出ESPADA方法,通过语义感知下采样加速模仿学习执行,克服人类演示的缓慢节奏。直接提升策略执行效率,数据处理流程清晰,易于集成。
Zunzhe Zhang et al. · 将生成控制转化为优化问题,提出时间无条件流匹配方法,摆脱固定积分时间表束缚。提升控制的适应性与鲁棒性,理论扎实,方法具有通用性。
Ethan Foong et al. · 提出HANDFUL方法,实现资源感知的序列抓取条件灵巧操作。解决多技能序列执行中的资源管理问题,针对灵巧手VLA的具体痛点,具有实操价值。
Sthithpragya Gupta et al. · 提出基于运动学智能的跨机器人技能迁移方法,允许单次演示后在多平台上执行。属于操作控制领域重要进展,但非VLA架构核心创新,且为期刊发表内容。
Jose Barreiros et al. · 深入分析大型行为模型在灵巧操作中的表现与局限性。作为Science Robotics的实证研究,提供了宝贵的洞察,但属于评估/综述性质,无新算法或SOTA提升。
Michael C. Welle et al. · 综述基础模型在机器人迁移学习中的应用现状与挑战。属于领域回顾与展望,对理解技术演进有价值,但无具体新方法或实验贡献。
Yixuan Huang et al. · 推出KinDER基准测试,评估机器人在运动学和动力学约束下的物理推理能力。重要数据集发布,有助于量化VLA的物理常识水平,但本身无算法创新。
Chenghao Yin et al. · 更新Genie Sim仿真平台至3.0版本,专注于人形机器人高保真模拟。虽为重要工具更新,但属工程迭代,缺乏方法论层面的突破,归为值得了解。
Zhijun Li et al. · 提出从单视角全景图快速生成沉浸式3D场景的方法,服务于机器人仿真。虽与仿真相关,但更偏向计算机视觉重建,非VLA核心控制问题。
Weipeng Zhong et al. · 发布大规模可仿真室内场景数据集InternScenes,强调布局真实性。重要数据资源,但作为数据集论文,无直接算法贡献,归为值得了解。
Selma Wanna et al. · 审计具身AI数据集的语言多样性缺陷,揭示训练数据的偏差问题。重要的数据分析工作,提醒社区关注数据质量,但无新模型或方法提出。
Diego Candia-Rivera (NERV) · 提出内感受启发的人工智能监管架构框架,借鉴生物内部状态调节机制。概念新颖但偏理论综述,缺乏具体的VLA实现路径和实验验证。
Ziyao Wang et al. · 全面综述VLA领域的数据基础设施,包括数据集、基准和数据引擎。系统性梳理领域现状,对研究者有参考意义,但属纯综述文章。
Mohammad Sadegh Salehi et al. · 发布AmaraSpatial-10K数据集,提供空间与语义对齐的3D资产。解决部署前数据预处理痛点,但本质为数据资源发布,无算法创新。
Tianyidan Xie et al. · 推出PhysCodeBench基准,评估物理感知的符号仿真能力,采用多智能体自我修正机制。侧重仿真环境构建与评估,非VLA控制策略核心。
Jonas Bode et al. · 扩展潜在3D扩散模型用于语言条件多任务操作,融合3D几何信息。虽涉及VLA,但主要贡献在于扩散模型架构调整,实验集中在仿真,创新性一般。
Davide Castelvecchi · Nature评论文章,科普世界模型的概念及其在机器人技术中的潜力。面向大众或跨领域读者,无技术细节或实验数据,仅具背景知识价值。
Erlong Wang et al. · 介绍基于液态金属界面的连续触觉传感技术,提升触觉分辨率。属于传感器硬件创新,虽对触觉VLA重要,但非算法或模型层面贡献。
Carson Kohlbrenner et al. · 探索本体触觉与接近传感器作为人形机器人避撞的观察先验。侧重传感器融合与感知策略,虽相关但非VLA核心语义-动作映射问题。
Clinton Enwerem et al. · 提出变分神经信念参数化方法,处理多模态不确定性下的稳健灵巧抓取。侧重贝叶斯推断与抓取稳定性,属于传统机器人学习范畴,非VLA前沿。
Pei Xu et al. · 学习肌肉驱动的灵巧手控制,实现钢琴演奏等精细动作。侧重生物力学仿真与控制,虽涉及灵巧操作,但非基于VLA范式的通用策略。
Wadhah Zai El Amri et al. · 提出SPLIT方法,通过潜在算术分离图像触觉传感器中的物理接触信号。侧重触觉数据处理与解耦,为触觉VLA提供预处理工具,非核心控制算法。