告别模糊! 英伟达发布 ViPE 引擎 为空间 AI 提供高精度 3D 数据

近日,与多伦多大学、向量研究所及德克萨斯大学奥斯汀分校的研究团队联合发布了一项名为**ViPE(视频姿势引擎)**的突破性技术。ViPE 旨在解决 3D 几何感知领域的关键挑战,即如何从复杂的自然视频中高效且精准地提取 3D 信息。

技术核心与应用

3D 几何感知是自动驾驶、虚拟现实 (VR) 和增强现实 () 等多种现代技术的核心。ViPE 创新性地从原始视频中快速获取相机的固有特性、运动信息以及高精度的深度图,为这些空间 系统提供了可靠的数据基础。

ViPE 具有强大的适应性,能够处理各种场景和相机类型,包括动态自拍视频、电影镜头、行车记录仪以及针孔、广角和 360°全景相机模型。

工作原理与性能

研究团队采用了一种多重约束的混合方法来确保 ViPE 的高精度:

  • 束调整: 在关键帧上进行密集束调整,以估算相机参数、姿态和深度图。

  • 密集流与稀疏点约束: 引入 DROID-SLAM 网络的密集流约束和 cuvslam 库的稀疏点约束,确保稳健性和亚像素精度。

  • 深度正则化: 利用单目度量深度网络,解决尺度模糊性和一致性问题,生成高分辨率且时间一致的深度信息。

测试结果显示,ViPE 在多个基准测试中的表现均优于现有技术 (如 MegaSAM、VGGT 和 MASt3R-SLAM)。它不仅在姿态和内在函数精度方面表现出色,还能在单个 GPU 上以每秒 3 到 5 帧的速度稳定运行,并成功生成了尺度一致的轨迹。

为推动空间 AI 领域的进一步研究,该团队还发布了一个包含约 9600 万帧标注数据的大规模数据集,为未来的技术探索提供了宝贵资源。ViPE 的发布不仅标志着 3D 几何感知技术的一次重要进步,也为未来的空间 奠定了坚实的基础。

地址:https://research.nvidia.com/labs/toronto-ai/vipe/

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

逻辑智能发布全球首个开源语音大模型框架 LLaSO

2025-9-17 1:22:26

AI 资讯

​Meta AI 发布 MobileLLM-R1:轻量级边缘推理模型,参数不足 10 亿,性能提升显著

2025-9-17 1:22:54

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索