告别模糊! 英伟达发布 ViPE 引擎为空间 AI 提供高精度 3D 数据

小强

近日，英伟达与多伦多大学、向量研究所及德克萨斯大学奥斯汀分校的研究团队联合发布了一项名为**ViPE（视频姿势引擎）**的突破性技术。ViPE 旨在解决 3D 几何感知领域的关键挑战，即如何从复杂的自然视频中高效且精准地提取 3D 信息。

3D 几何感知是自动驾驶、虚拟现实（VR）和增强现实 (AR) 等多种现代技术的核心。ViPE 创新性地从原始视频中快速获取相机的固有特性、运动信息以及高精度的深度图，为这些空间 AI 系统提供了可靠的数据基础。

ViPE 具有强大的适应性，能够处理各种场景和相机类型，包括动态自拍视频、电影镜头、行车记录仪以及针孔、广角和 360°全景相机模型。

研究团队采用了一种多重约束的混合方法来确保 ViPE 的高精度:

测试结果显示，ViPE 在多个基准测试中的表现均优于现有技术（如 MegaSAM、VGGT 和 MASt3R-SLAM）。它不仅在姿态和内在函数精度方面表现出色，还能在单个 GPU 上以每秒 3 到 5 帧的速度稳定运行，并成功生成了尺度一致的轨迹。

为推动空间 AI 领域的进一步研究，该团队还发布了一个包含约 9600 万帧标注数据的大规模数据集，为未来的技术探索提供了宝贵资源。ViPE 的发布不仅标志着 3D 几何感知技术的一次重要进步，也为未来的空间 AI 应用奠定了坚实的基础。

地址：https://research.nvidia.com/labs/toronto-ai/vipe/

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证