Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics
Open-H-Embodiment Consortium (Brian) et al. · 发布医疗机器人大规模数据集,填补特定领域数据空白。为 VLA 在医疗场景的微调提供关键资源,具有明确的数据复用价值。
Open-H-Embodiment Consortium (Brian) et al. · 发布医疗机器人大规模数据集,填补特定领域数据空白。为 VLA 在医疗场景的微调提供关键资源,具有明确的数据复用价值。
Dachong Li et al. · 提出通过稀疏锚点注入显式空间约束以改进生成式 VLA 动作头的方法。解决了隐式空间引导的不稳定性问题,提供了可复用的架构改进思路。
Zhen Zhang et al. · 利用指尖视觉感知解决灵巧操作中手腕视角遮挡问题,提升真实世界灵巧操作性能。直接针对触觉/视觉融合痛点,方法具有明确的工程应用路径。
Yiming Zhong et al. · 提出残差桥接机制,将高层语义意图与低层物理控制对齐,缓解生成式 VLA 的时空尺度失配问题。提供了改进策略稳定性的具体模块,具备复用价值。
Songen Gu et al. · 通过时空感知视图合成增强机器人对相机视角变化的鲁棒性。解决了固定视角训练导致的泛化瓶颈,方法可直接集成到现有 VLA 流水线中。
Isabella Liu et al. · 提出 LoHo-Manip 框架,利用轨迹条件化扩展短视界 VLA 以处理长视界任务。模块化设计易于集成,有效缓解误差累积问题,具有实操价值。
Zijian Song et al. · 引入 PhysGen,利用预训练视频生成模型学习物理规律以辅助策略学习。提供了一种利用通用视频模型增强机器人物理常识的新范式,具有创新性。
Zhixuan Xu et al. · 提出 FingerEye 实现连续统一的视触感知,覆盖接触前、中、后全阶段。填补了灵巧操作中多模态连续反馈感知的空白,对触觉 VLA 研究极具价值。
Yiyang Du et al. · 提出中间训练(Mid-training)策略,使通用 VLM 更好地适应具身领域。提供了从 VLM 到 VLA 的高效迁移路径,方法简单有效,易于复现。
Adriana Aida et al. · 将世界模型落地于工业真实部署,解决 VLA 反应式控制的局限性。提供了工业级长视界执行的工程洞见和数据集,具有极高的实际应用参考值。
Alessio Palma et al. · 利用多智能体上下文学习(ICL)实现双臂协作,无需任务特定训练。展示了 LLM 在复杂协调任务中的零样本潜力,方法新颖且具启发性。
Qianxi Hua et al. · 发布 VTouch++ 数据集,包含丰富的视触双模态信号用于双臂操作。填补了接触丰富任务中多模态数据的空白,极具数据复用价值。
Nature 综述文章,探讨从具身智能到物理 AI 的范式转变。属于领域宏观视角,无具体算法或实验贡献,适合了解趋势但不具备即时工程价值。
分析 VLA 在 BEHAVIOR1K 等开放世界基准上的表现。偏向于现象分析和评估报告,未提出新的架构或训练方法,属于值得关注的评估类工作。
S. A. Prieto et al. · 基于企业挑战赛案例,研究 LLM 在人机交互中的结构化作用。侧重社会技术系统评估,缺乏底层 VLA 算法创新,属于相邻领域的实证研究。
Weirui Ye et al. · 旧文重发(v5),探讨利用基础模型先验加速 RL。虽相关但非最新突破,且重点在于 RL 效率而非 VLA 架构本身,归为值得了解。
Yuchun Feng et al. · 深入分析动作空间设计对模仿学习的影响。属于重要的理论分析与消融研究,有助于理解现有 VLA 设计选择,但非新方法论提出。
Souren Pashangpour et al. · 关注移动操作机器人在人机交互中的表达性行为。侧重社交机器人学与非语言沟通,与核心 VLA 操作技能学习关联度较低。
Wuyang Luan et al. · arXiv:2604.05673v2 Announce Type: replace Abstract: Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into continuous, long-horizon action trajectories. While generative policies based on diffusion models and Schr\"odinger Bridges (SB) effectively capture multimodal action distributions, they require dozens of integration steps due to high-variance stochastic transport, posing a critical barrier for real-time robo
Tianle Zhang et al. · 发布名为 JoyAI-RA 的机器人基础模型。摘要强调数据多样性和跨实体泛化,但缺乏具体的架构创新描述和显著的 SOTA 对比证据,暂归为值得关注的新模型发布。
Jiamin Chang et al. · 研究视觉注入攻击对 VLA 代理系统信任边界的影响及缓解措施。侧重安全与对抗鲁棒性,虽重要但非核心操作能力提升,属安全方向补充。
Yuelin Zhang et al. · 针对超声引导穿刺的专用 VLA 模型。应用场景极度垂直,缺乏通用性验证,仅对医疗机器人特定细分领域有参考意义。
Ravi Ranjan et al. · 探讨 VLA 模型的遗忘学习(Unlearning),移除不安全行为。属于模型安全与维护方向,虽新颖但非当前 VLA 性能提升的主流焦点。
Koya Sakamoto et al. · 发布基于 3D Gaussian Splatting 的主动感知基准。提供新的评估工具,但本身无新算法提出,属于基础设施类贡献。
统一交互式视频世界模型的基准套件。解决评估不一致问题,对世界模型研究者有价值,但对 VLA 策略学习的直接指导意义有限。
Xun-En Wu et al. · 硬件层面的触觉-视觉交互传感器研究。虽与触觉 VLA 感知相关,但属于传感技术突破,非算法或模型层面的 VLA 进展。
Byungseok Seo et al. · 新型时间戳触觉传感器的硬件设计。同样属于底层传感技术创新,未涉及上层 VLA 策略或数据处理流程。
Tianle Zeng et al. · 构建空地协同的仿真基础设施。虽涉及具身智能,但侧重仿真平台搭建,且主要面向无人机/地面车,与桌面操作 VLA 距离较远。