混元世界模型 1.1 正式发布: 革新 3D 重建技术,秒级生成高质量场景

今日,正式发布并了混元世界模型 1.1(WorldMirror),这一全新版本在多视图和视频输入支持、单卡部署以及生成速度等方面进行了重大升级,为 3D 重建技术的普及和应用打开了新的大门。

混元世界模型 1.1 以其强大的功能,致力于将专业的 3D 重建技术变为普通用户可轻松使用的工具。该模型能够在仅仅数秒内,从视频或图片中生成专业级的 3D 场景,大幅提升了 3D 重建的效率和便捷性。其前身混元世界模型 1.0 于今年 7 月发布,成为业界首个兼容传统 CG 管线的开源可漫游世界生成模型,而新版本则在此基础上实现了多模态先验注入和多任务统一输出的端到端 3D 重建。

该模型的三个主要特性包括灵活处理不同输入、通用 3D 视觉预测和单卡部署秒级推理。混元世界模型 1.1 采用了多模态先验引导机制,支持相机位姿、相机内参和深度图等多种信息的注入,确保生成的 3D 场景在几何上更加准确。同时,该模型实现了点云、深度图、相机参数、表面法线和新视角合成等多种 3D 几何预测,展示出显著的性能优势。

与传统的 3D 重建方法相比,混元世界模型 1.1 利用纯前馈架构,能够在单次正向传播中直接输出所有 3D 属性,显著降低了处理时间。对于典型的 8-32 视图输入,模型仅需 1 秒钟即可完成推理,满足了实时应用的需求。

在技术架构方面,混元世界模型 1.1 采用多模态先验提示和通用几何预测架构,结合课程学习策略,使得模型在复杂的真实环境中保持高效、准确的解析能力。通过动态注入机制,模型能够灵活应对各种先验信息,提升了 3D 结构的一致性和重建质量。

目前,混元世界模型 1.1 已经在 GitHub 上开源,开发者可以轻松克隆仓库并进行本地部署。同时,普通用户也可以通过 HuggingFaceSpace 在线体验,上传多视图图像或视频,实时预览生成的 3D 场景。该技术的发布标志着 3D 重建领域的一次重要进步,未来将进一步推动虚拟现实、游戏开发等多个行业的发展。

  • 项目主页:https://3d-models.hunyuan.tencent.com/world/

  • Github 项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror

  • HuggingFace 模型地址:https://huggingface.co/tencent/HunyuanWorld-Mirror

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

突破瓶颈!上交大与上海 AI Lab 携手提升多模态大模型反思能力

2025-10-22 1:23:15

AI 资讯

" 最美产品经理" 做 AI 化妆镜: 宋紫薇离开 vivo 创业,瞄准时尚 AI 硬件市场

2025-10-23 1:20:41

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索