开源!腾讯混元图像 3.0 正式上线,支持中英文精准渲染、长文本生成

宣布正式发布混元图像 3.0,这是业界首个的商用级原生多模态生图模型。该模型拥有 80 亿参数,是目前效果最优、参数量最大的开源生图模型,能够与顶尖闭源模型相媲美。用户可以通过官网体验该模型,模型的权重和加速版本也已在 GitHub 和 等开源社区发布,供广大开发者免费下载和使用。

原生多模态技术架构

混元图像 3.0 的亮点在于其 「原生多模态」 技术架构,允许用户通过一个模型同时处理文字、图片、视频和音频等多种输入和输出形式,而不再依赖多个模型的组合。这种创新使得模型具备了和语义理解的双重能力,类似于一个拥有思考能力的 「智能画家」。

高级语义理解与自动生成

该模型的语义理解能力显著提升,用户只需简单输入,例如 「生成一个月全食的四格科普漫画」,模型便能自动生成完整的漫画,无需用户对每一格进行详细描述。

混元图像 3.0 语义理解能力和美学质感也得到了大幅提升,可以实现对用户指令的精确生成,包括图片中的小字和长文本生成,都能较好地实现。

官方案例: 比如输入:「你是一个穿搭博主,请根据模特穿搭生成一张封面图片,要求:1. 画面左侧是模特的 OOTD 全身图 2. 右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包风格: 实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭」。在这个提示词下,混元图像 3.0 可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

此外,混元图像 3.0 可以处理复杂的文字要求,生成详细的商品图、海报和插画,满足各类创作需求。

提升创作效率

混元图像 3.0 的发布不仅方便了插画师和设计师,还能帮助缺乏美术基础的内容更轻松地制作出高质量的视觉内容。原本需要数小时的创作过程,现在可能仅需几分钟就能完成,大幅提升了创作效率。

多任务训练与未来展望

混元图像 3.0 基于 50 亿图文对和 6TB 语料数据进行多模态混合训练,充分融合了多任务效果,从而实现超强的语义理解能力。腾讯团队透露,未来将陆续推出图生图、图像编辑、多轮交互等新功能,以进一步增强用户体验。

用户可以通过访问腾讯混元官网 (https://hunyuan.tencent.com/image) 来体验这一全新的图像生成技术。此外,混元图像 3.0 的模型权重和加速版本已经在 Github、HuggingFace 等开源平台上发布,用户可以免费进行下载和使用。

划重点:

🌟混元图像 3.0 是首个开源的原生多模态生图模型,参数规模达 80B。

🖌️该模型具备优异的语义理解能力,用户可以通过简短提示词生成复杂图像。

🚀模型发布后将提升者的效率,未来将推出更多功能以满足不同需求。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Moondream3.0 发布,多项基准测试超越了 GPT-5 等顶尖模型

2025-9-29 1:21:15

AI 资讯

腾讯重磅发布 「混元图像 3.0」,开创多模态图像生成新时代

2025-9-29 1:21:32

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索