清华与快手联手推出新型 SVG 扩散模型，训练效率暴增 6200%

AI 资讯
25 年 10 月 30 日
编辑

小强

在近期的科技界，VAE（变分自编码器）正在经历被逐步淘汰的尴尬局面，随着清华大学与快手可灵团队的合作，推出了一款名为 SVG(无 VAE 潜在扩散模型) 的新型生成模型。此次创新不仅在训练效率上实现了 6200% 的惊人提升，而且在生成速度上更是达到了 3500% 的飞跃。

VAE 在图像生成领域的衰退，主要源于其存在的「语义纠缠」问题。也就是说，当我们尝试仅仅改变图像中某一特征（如猫的颜色）时，其他特征 (如体型、表情) 往往也会受到影响，导致生成的图像不够精准。为了解决这个问题，清华与快手的 SVG 模型采取了不同的策略，主动构建了一个融合语义与细节的特征空间。

在 SVG 模型的设计中，团队首先使用 DINOv3 预训练模型作为语义提取器，该模型经过大规模的自监督学习，能够有效识别和分离不同类别的特征，解决了传统 VAE 模型中的语义混乱。此外，为了补充细节，团队还特别设计了一个轻量级的残差编码器，确保细节信息不会与语义特征相冲突。关键的分布对齐机制则进一步增强了这两种特征的融合，保证了生成图像的高质量。

实验结果表明，SVG 模型在生成质量和多任务通用性方面，全面超越了传统的 VAE 方案。在 ImageNet 数据集上，SVG 模型在仅训练 80 个周期时，FID 值（衡量生成图像与真实图像相似度的指标）达到 6.57，远超同规模的 VAE 模型; 而在推理效率上，SVG 模型也显示出卓越的性能，在较少的采样步骤下即可生成清晰图像。此外，SVG 模型的特征空间还可直接用于图像分类、语义分割等多种视觉任务，无需额外微调，大大提高了应用的灵活性。

清华与快手的这一新技术不仅为图像生成领域带来了革命性的变化，更有望在多模态生成任务中展现出强大的潜力。

论文地址：https://arxiv.org/pdf/2510.15301

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

清华与快手联手推出新型 SVG 扩散模型，训练效率暴增 6200%

Magic Leap 宣布与 Google 重新合作，共同开发下一代 AR 眼镜原型

NVIDIA 推出革命性 AI 数据中心设计助力高效能计算

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

Magic Leap 宣布与 Google 重新合作，共同开发下一代 AR 眼镜原型

​NVIDIA 推出革命性 AI 数据中心设计 助力高效能计算

光子级渲染重塑视觉极限：Reve Image 突破 AI 生成真实感瓶颈

Reddit 控诉 AI 公司 Anthropic：超十万次违规访问引发版权争议

Anthropic 推出 Claude for Excel，助力金融服务更高效分析

智源发布 Emu3.5 大模型：以 「下一状态预测」 重构多模态智能，具身操作能力惊艳业界

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

NVIDIA 推出革命性 AI 数据中心设计助力高效能计算

智源发布 Emu3.5 大模型：以「下一状态预测」重构多模态智能，具身操作能力惊艳业界