清华与快手联手推出新型 SVG 扩散模型,训练效率暴增 6200%

在近期的科技界,VAE(变分自编码器) 正在经历被逐步淘汰的尴尬局面,随着清华大学与可灵团队的合作,推出了一款名为 SVG(无 VAE 潜在) 的新型生成模型。此次创新不仅在训练效率上实现了 6200% 的惊人提升,而且在生成速度上更是达到了 3500% 的飞跃。

VAE 在领域的衰退,主要源于其存在的 「语义纠缠」 问题。也就是说,当我们尝试仅仅改变图像中某一特征 (如猫的颜色) 时,其他特征 (如体型、表情) 往往也会受到影响,导致生成的图像不够精准。为了解决这个问题,清华与快手的 SVG 模型采取了不同的策略,主动构建了一个融合语义与细节的特征空间。

在 SVG 模型的设计中,团队首先使用 DINOv3 预训练模型作为语义提取器,该模型经过大规模的自监督学习,能够有效识别和分离不同类别的特征,解决了传统 VAE 模型中的语义混乱。此外,为了补充细节,团队还特别设计了一个轻量级的残差编码器,确保细节信息不会与语义特征相冲突。关键的分布对齐机制则进一步增强了这两种特征的融合,保证了生成图像的高质量。

实验结果表明,SVG 模型在生成质量和多任务通用性方面,全面超越了传统的 VAE 方案。在 ImageNet 数据集上,SVG 模型在仅训练 80 个周期时,FID 值 (衡量生成图像与真实图像相似度的指标) 达到 6.57,远超同规模的 VAE 模型; 而在推理效率上,SVG 模型也显示出卓越的性能,在较少的采样步骤下即可生成清晰图像。此外,SVG 模型的特征空间还可直接用于图像分类、语义分割等多种视觉任务,无需额外微调,大大提高了应用的灵活性。

清华与快手的这一新技术不仅为图像生成领域带来了革命性的变化,更有望在多模态生成任务中展现出强大的潜力。

论文地址:https://arxiv.org/pdf/2510.15301

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Magic Leap 宣布与 Google 重新合作,共同开发下一代 AR 眼镜原型

2025-10-30 1:21:31

AI 资讯

​NVIDIA 推出革命性 AI 数据中心设计 助力高效能计算

2025-10-30 1:21:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索