通义千问发布多模态统一理解与生成模型 Qwen VLo

近日,QwenVLo 多模态正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的体验。

据介绍,QwenVLo 在继承原有 Qwen-VL 系列模型优势的基础上,进行了全面升级。该模型不仅能够精准 「看懂」 世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在 QwenChat(chat.qwen.) 平台上直接体验这一新模型。

QwenVLo 的独特之处在于其渐进式生成方式。模型在生成图片时,采用从左到右、从上到下的逐步构建策略,过程中不断对预测内容进行优化调整,确保最终结果的和谐一致。这种生成机制不仅提升了视觉效果,还为用户提供了更灵活、可控的创作过程。

在内容理解与再创造方面,QwenVLo 展现了强大的能力。与以往的多模态模型相比,QwenVLo 在生成过程中能够更好地保持语义一致性,避免将汽车误生成其他物体或无法保留原图关键结构特征的问题。例如,当用户输入一张汽车照片并要求更换颜色时,QwenVLo 能准确识别车型,保留原有结构特征,并自然转换色彩风格,使生成结果既符合预期又不失真实感。

此外,QwenVLo 还支持开放指令编辑修改生成。用户可以通过自然语言提出各种创意性指令,如改变画风、添加元素或调整背景等。模型能够灵活响应这些指令,并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰,QwenVLo 都能轻松应对。

值得一提的是,QwenVLo 还具备多语言指令支持能力。该模型支持包括中文、英文在内的多种语言指令,为全球用户提供了统一且便捷的交互体验。无论用户使用哪种语言,只需简单描述需求,模型便能快速理解并输出理想结果。

在实际应用中,QwenVLo 展现了多样化的功能。它可以直接生成图像并进行修改,如替换背景、添加主体或进行风格迁移等。同时,模型还能完成基于开放指令的大幅修改,包括检测和分割等视觉感知任务。此外,QwenVLo 还支持多张图像的输入理解和生成,以及图像检测、标注等功能。

除了图文同时输入的情况外,QwenVLo 还支持文本到图像的直接生成,包括通用图像和中英文海报等。模型采用动态分辨率训练,支持任意分辨率和长宽比的,使用户能够根据实际需求生成适配不同场景的图像内容。

目前,QwenVLo 还处于预览阶段,虽然已展现出强大的能力,但仍存在一些不足之处。例如,在生成过程中可能存在不符合事实或不完全与原图一致的情况。研发团队表示,他们将持续迭代模型,不断提升其性能和稳定性。

体验地址:chat.qwen.ai

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

一键生成爆款视频!HeyGen AI 视频 Agent 席卷内容创作界!

2025-6-28 1:23:31

AI 资讯

「6 月 30 日 AI 日报」 百度开源文心大模型 4.5 系列;通义千问多模态生成模型 Qwen VLo

2025-7-1 1:20:31

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索