通义千问发布多模态统一理解与生成模型 Qwen VLo

AI 资讯
25 年 6 月 29 日
编辑

小强

近日，QwenVLo 多模态大模型正式发布，该模型在图像内容理解与生成方面取得了显著进展，为用户带来了全新的视觉创作体验。

据介绍，QwenVLo 在继承原有 Qwen-VL 系列模型优势的基础上，进行了全面升级。该模型不仅能够精准「看懂」世界，更能基于理解进行高质量的再创造，真正实现了从感知到生成的跨越。用户现在可以在 QwenChat（chat.qwen.ai）平台上直接体验这一新模型。

QwenVLo 的独特之处在于其渐进式生成方式。模型在生成图片时，采用从左到右、从上到下的逐步构建策略，过程中不断对预测内容进行优化调整，确保最终结果的和谐一致。这种生成机制不仅提升了视觉效果，还为用户提供了更灵活、可控的创作过程。

在内容理解与再创造方面，QwenVLo 展现了强大的能力。与以往的多模态模型相比，QwenVLo 在生成过程中能够更好地保持语义一致性，避免将汽车误生成其他物体或无法保留原图关键结构特征的问题。例如，当用户输入一张汽车照片并要求更换颜色时，QwenVLo 能准确识别车型，保留原有结构特征，并自然转换色彩风格，使生成结果既符合预期又不失真实感。

此外，QwenVLo 还支持开放指令编辑修改生成。用户可以通过自然语言提出各种创意性指令，如改变画风、添加元素或调整背景等。模型能够灵活响应这些指令，并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰，QwenVLo 都能轻松应对。

值得一提的是，QwenVLo 还具备多语言指令支持能力。该模型支持包括中文、英文在内的多种语言指令，为全球用户提供了统一且便捷的交互体验。无论用户使用哪种语言，只需简单描述需求，模型便能快速理解并输出理想结果。

在实际应用中，QwenVLo 展现了多样化的功能。它可以直接生成图像并进行修改，如替换背景、添加主体或进行风格迁移等。同时，模型还能完成基于开放指令的大幅修改，包括检测和分割等视觉感知任务。此外，QwenVLo 还支持多张图像的输入理解和生成，以及图像检测、标注等功能。

除了图文同时输入的情况外，QwenVLo 还支持文本到图像的直接生成，包括通用图像和中英文海报等。模型采用动态分辨率训练，支持任意分辨率和长宽比的图像生成，使用户能够根据实际需求生成适配不同场景的图像内容。

目前，QwenVLo 还处于预览阶段，虽然已展现出强大的能力，但仍存在一些不足之处。例如，在生成过程中可能存在不符合事实或不完全与原图一致的情况。研发团队表示，他们将持续迭代模型，不断提升其性能和稳定性。

体验地址:chat.qwen.ai

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

通义千问发布多模态统一理解与生成模型 Qwen VLo

一键生成爆款视频！HeyGen AI 视频 Agent 席卷内容创作界！

「6 月 30 日 AI 日报」百度开源文心大模型 4.5 系列；通义千问多模态生成模型 Qwen VLo

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

一键生成爆款视频！HeyGen AI 视频 Agent 席卷内容创作界！

「6 月 30 日 AI 日报」 百度开源文心大模型 4.5 系列；通义千问多模态生成模型 Qwen VLo

光子级渲染重塑视觉极限：Reve Image 突破 AI 生成真实感瓶颈

OpenAI -- 是一个美国人工智能研究实验室

2025 免费的 AI 大模型 API 接口推荐

一文读懂大语言模型：从原理到应用

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

「6 月 30 日 AI 日报」百度开源文心大模型 4.5 系列；通义千问多模态生成模型 Qwen VLo