机器人视觉大飞跃！新模型助力 AI 「看懂」三维世界，成功率提升 31%

AI 资讯
25 年 10 月 1 日
编辑

小强

在机器人领域，让人工智能真正「看懂」三维世界一直是一个棘手的问题。传统的视觉语言模型（VLA）大多依赖于二维图像和文本数据训练，难以理解真实环境中的三维空间。然而，最近来自上海交通大学和剑桥大学的研究团队提出了一种名为 Evo-0 的新型增强视觉语言动作模型，通过轻量化的方式注入 3D 几何先验，使得机器人在复杂任务中的空间理解能力得到了显著提升。

Evo-0 模型的创新在于其利用视觉几何基础模型（VGGT），从多视角的 RGB 图像中提取出三维结构信息，并将这些信息与已有的视觉语言模型相结合。这种方法不仅避免了使用额外传感器或显式深度输入的需要，还显著提升了空间感知能力。在 RLBench 仿真实验中，Evo-0 在五个需要精细操作的任务上，成功率比基线模型 pi0 高出 15%，并且在开放 VLA(openvla-oft) 上提升了 31%。

具体而言，Evo-0 将 VGGT 作为空间编码器，引入了通过 VGGT 提取的 t3^Dtoken，这些 token 包含了深度上下文和空间关系等几何信息。通过交叉注意力融合模块，模型能够将提取的二维视觉 token 与三维 token 进行有效结合，提升了对空间布局和物体关系的理解能力。这种方法在保证训练效率的同时，灵活性和部署便捷性也得到了提高。

在真实世界的实验中，Evo-0 在处理复杂空间任务时表现出色，包括目标居中放置、插孔、密集抓取等任务，均超过了基线模型，平均成功率提升了 28.88%。特别是在对复杂空间关系的理解和操控能力方面，Evo-0 展现出显著优势。

综上所述，Evo-0 通过巧妙的空间信息融合，为未来的通用机器人策略提供了一条新的可行路径。该研究成果不仅在学术界引发了广泛关注，也为机器人领域的实际应用带来了新的可能性。

论文地址：https://arxiv.org/pdf/2507.00416

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

机器人视觉大飞跃！新模型助力 AI 「看懂」三维世界，成功率提升 31%

DeepMind 重磅推出「帧链」概念：视频模型或将实现全面视觉理解

蚂蚁集团开源全球首个万亿参数大模型 Ring-1T-preview，代码生成能力超越 GPT-5

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

DeepMind 重磅推出 「帧链」 概念：视频模型或将实现全面视觉理解

​蚂蚁集团开源全球首个万亿参数大模型 Ring-1T-preview，代码生成能力超越 GPT-5

提示词管理神器 AI Gist 上线！多语言+智能优化，AI 开发者的效率利器！

​智谱 Z.ai 发布 Zread.AI，助力开源项目阅读新体验

Openjourney：MidJourney 的开源替代品，融合 Google AI 强大能力

百度新一代数字人技术 NOVA 亮相 WAIC 预计 10 月开放

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

DeepMind 重磅推出「帧链」概念：视频模型或将实现全面视觉理解

蚂蚁集团开源全球首个万亿参数大模型 Ring-1T-preview，代码生成能力超越 GPT-5

智谱 Z.ai 发布 Zread.AI，助力开源项目阅读新体验