机器人视觉大飞跃!新模型助力 AI 「看懂」 三维世界,成功率提升 31%

在机器人领域,让真正 「看懂」 三维世界一直是一个棘手的问题。传统的视觉语言模型 (VLA) 大多依赖于二维图像和文本数据训练,难以理解真实环境中的三维空间。然而,最近来自上海交通大学和剑桥大学的研究团队提出了一种名为 Evo-0 的新型增强视觉语言动作模型,通过轻量化的方式注入 3D 几何先验,使得机器人在复杂任务中的空间理解能力得到了显著提升。

Evo-0 模型的创新在于其利用视觉几何基础模型 (VGGT),从多视角的 RGB 图像中提取出三维结构信息,并将这些信息与已有的视觉语言模型相结合。这种方法不仅避免了使用额外传感器或显式深度输入的需要,还显著提升了空间感知能力。在 RLBench 仿真实验中,Evo-0 在五个需要精细操作的任务上,成功率比基线模型 pi0 高出 15%,并且在开放 VLA(openvla-oft) 上提升了 31%。

具体而言,Evo-0 将 VGGT 作为空间编码器,引入了通过 VGGT 提取的 t3^Dtoken,这些 token 包含了深度上下文和空间关系等几何信息。通过交叉注意力融合模块,模型能够将提取的二维视觉 token 与三维 token 进行有效结合,提升了对空间布局和物体关系的理解能力。这种方法在保证训练效率的同时,灵活性和部署便捷性也得到了提高。

在真实世界的实验中,Evo-0 在处理复杂空间任务时表现出色,包括目标居中放置、插孔、密集抓取等任务,均超过了基线模型,平均成功率提升了 28.88%。特别是在对复杂空间关系的理解和操控能力方面,Evo-0 展现出显著优势。

综上所述,Evo-0 通过巧妙的空间信息融合,为未来的通用机器人策略提供了一条新的可行路径。该研究成果不仅在界引发了广泛关注,也为机器人领域的实际应用带来了新的可能性。

论文地址:https://arxiv.org/pdf/2507.00416

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

DeepMind 重磅推出 「帧链」 概念:视频模型或将实现全面视觉理解

2025-10-1 1:22:34

AI 资讯

​蚂蚁集团开源全球首个万亿参数大模型 Ring-1T-preview,代码生成能力超越 GPT-5

2025-10-1 1:22:51

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索