​昆仑万维开源多模态统一预训练模型 Skywork UniPic,融合图片生成与理解能力

昆仑万维正式推出了自回归路线的 「多模态统一预训练模型 SkyworkUniPic」,并将其。这款模型在一个系统中集成了图像理解、文本生成图像 (T2I) 和图像编辑三大核心功能,标志着技术的进一步发展。

SkyworkUniPic 的核心特点在于其基于大规模高质量数据进行端到端的预训练,展现出良好的通用性和可迁移性。该团队致力于推动开放合作和创新共享,用户可以通过提供的链接获取模型权重、技术报告和代码仓库,方便开发者和研究者进行进一步的探索和应用。

SkyworkUniPic 借鉴了 -4o 的自回归范式,通过结合图像理解、文本到和图像编辑任务,建立了一个真正统一的多模态模型架构。与传统的多模态模型不同,SkyworkUniPic 采用了 MAR 编码器和 SigLIP2 结构设计,这样的设计意图在于提升模型在理解、生成和编辑任务上的表现。

该模型的能力包括图文理解、图像生成和图像编辑。用户只需输入简单的,SkyworkUniPic 就能理解图像内容、生成新图像,甚至进行风格转绘等编辑操作。其使用简便性和强大功能,使得这款模型在开发者中备受关注。

SkyworkUniPic 以其 1.5B 的轻量级参数规模,实现了近乎大型模型的性能,强调了 「小而美」 的技术设计理念。在各类评估中,该模型表现出色,尤其是在指令遵循、复杂指令生成和图像编辑方面,展现了优异的执行能力。

为确保 SkyworkUniPic 的高性能,团队还建立了精细化的数据构建和训练体系,通过使用精选的训练数据和创新的奖励模型,不断优化模型性能。通过多阶段的训练和渐进式任务引入,SkyworkUniPic 不仅提升了模型的理解和生成能力,还有效地解决了多任务训练中存在的挑战。

SkyworkUniPic 的发布为多模态人工智能模型的实用化应用提供了新的解决方案,极大地降低了技术门槛,鼓励更多开发者参与到这一领域的探索中来。

模型权重:

https://huggingface.co/Skywork/Skywork-UniPic-1.5B

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

代码仓库:

https://github.com/SkyworkAI/UniPic

划重点:

🌟SkyworkUniPic 是昆仑万维推出的开源多模态统一预训练模型,集成了图像理解、生成和编辑功能。

💻模型采用 1.5B 的轻量级设计,性能接近大型模型,便于开发者使用。

📊通过精细化的数据构建和多阶段训练,SkyworkUniPic 在各类评估中表现出色,推动了多模态人工智能的发展。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Anthropic 计划融资 30 亿至 50 亿美元,估值将涨至 1700 亿美元

2025-7-31 1:21:07

AI 资讯

谷歌在在英国推出 AI 搜索模式,提升复杂问题解答体验

2025-7-31 1:21:13

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索