昆仑万维开源 Matrix-3D 大模型:用单张图像可生成高质量全景视频

昆仑万维在北京举行的 SkyWorkAI 技术发布周上,推出了 Matrix-3D,这一全新的 3D 世界生成,标志着 3D 生成技术的重大进步。

打破 3D 生成瓶颈

Matrix-3D 的推出旨在解决现有 3D 场景生成技术在视角范围、几何一致性和视觉质量上的局限。传统方法通常依赖多视角输入,难以从单一图像中生成完整且可探索的 3D 世界。而 Matrix-3D 则整合了全景视频生成和三维重建,能够从单张图像开始,生成高质量且具有一致轨迹的全景视频,并重建出可漫游的 3D 空间。

核心技术优势

Matrix-3D 包含几个核心模块,确保其在生成能力上的优势:

  1. 轨迹引导的全景视频生成: 通过使用场景 Mesh 渲染图作为条件输入,训练视频,生成符合相机轨迹的全景视频,从而提高视频在空间结构上的一致性,并减少遮挡错误和图像伪影。

  2. 双路径全景 3D 重建模块: 该模块支持两种优化路径。一是通过超分辨率和 3D 结构优化,获取高质量的 3D 模型; 二是基于 Transformer 的前馈网络,快速预测 3D 几何属性,实现高效重建。

  3. Matrix-Pano 数据集: 该数据集规模庞大,包含 116K 条带有相机轨迹、深度图和文本注释的静态全景视频序列,保障了生成模型的训练基础。

自由探索与精准控制

Matrix-3D 支持用户通过文本或图像输入,生成可自由探索的 3D 场景。其主要特点包括:

  • 视角一致性: 生成的 3D 场景支持 360 度自由环视,确保内容始终保持一致。
  • 几何与色彩一致性: 生成的 3D 场景在几何关系和遮挡关系上保持准确,不同区域颜色协调统一。
  • 精准控制与范围扩展: 用户可以根据输入轨迹生成不同的 3D 场景,并且可以在生成的场景基础上进行无限扩展。

广泛的应用前景

Matrix-3D 作为 3D 世界生成的重要里程碑,预计将在多个领域发挥重要作用,包括:

  • 游戏与影视制作: 快速生成高质量的 3D 场景,降低制作成本,提高沉浸感。
  • 具身智能: 构建可控的模拟环境,用于机器人训练和自动驾驶测试。

昆仑万维的 Matrix-3D 项目主页及相关技术报告现已上线,进一步推动 3D 生成技术的发展。

昆仑万维 「Matrix-3D」:

GitHub:

https://github.com/SkyworkAI/Matrix-3D

:

https://huggingface.co/Skywork/Matrix-3D

技术报告:

https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf

项目主页:

https://matrix-3d.github.io/

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

戴盟机器人完成亿元天使++轮融资,高分辨率触觉技术引领具身智能新突破

2025-8-13 1:21:01

AI 资讯

微软为 Excel 加入 AI 公式讲解,内联解释直达单元格

2025-8-13 1:21:07

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索