浙江大学联合 vivo 推出了一款革命性的视频虚拟试衣模型 MagicTryOn,以其卓越的时空一致性、服装细节保真度和泛化能力引发业界热议。这一创新技术不仅支持图像和视频试穿,还能在复杂场景和大幅度运动中实现逼真的服装效果,为电商、时尚和虚拟内容创作开辟了全新可能。
全球首创: 基于扩散 Transformer 的视频试穿框架
MagicTryOn 摒弃了传统的 U-Net 架构,采用先进的扩散 Transformer(DiT) 技术,显著提升了模型的表达能力。结合全自注意力机制,该框架实现了视频在时间和空间维度上的联合建模,确保试穿效果在动态场景中的流畅性和一致性。相较于传统方法,MagicTryOn 有效避免了帧间抖动和服装细节丢失问题,生成效果堪称影视级别。
支持多样化试穿场景,动态表现惊艳
MagicTryOn 支持图像试穿、视频试穿以及自定义试穿,能够适应从静态展示到动态表演的多种场景。尤其在大幅度运动 (如跳舞) 或复杂背景中,MagicTryOn 依然能保持服装的自然贴合与动态真实感。此外,其强大的泛化能力使其不仅适用于人体试穿,还能在玩偶等非标准对象上实现虚拟换装,为创意内容生成提供了更多可能性。
电商广告新利器: 细节保真,商业价值凸显
MagicTryOn 通过粗到细的服装保留策略和掩码感知损失优化,显著提升了服装纹理、图案和轮廓的保真度。实验表明,该模型在视频虚拟试穿 (VVT) 数据集上的表现全面超越现有技术,生成的试穿视频效果逼真稳定,可直接应用于电商广告和时尚展示场景。这一技术有望减少实体试穿和产品退货,降低时尚行业的环境影响,同时提升消费者在线购物的体验。
开源赋能,助力全球开发者
MagicTryOn 采用 Apache2.0 许可证,已在 HuggingFace 平台开放源代码、预训练模型和 Gradio 演示界面,供全球开发者免费体验和使用。这一举措不仅展示了浙江大学与 vivo 在 AI 技术开源领域的领先地位,也为电商、虚拟现实和内容创作等行业注入了新的创新动力。
MagicTryOn 的发布标志着视频虚拟试穿技术迈向新高度,其在时空一致性、动态适配和细节保真方面的突破,为 AI 驱动的时尚科技树立了新标杆。AIbase 认为,MagicTryOn 不仅将推动电商和时尚行业的数字化转型,还将为虚拟内容创作和元宇宙应用带来深远影响。未来,随着更多技术细节的公开和社区的参与,这款模型的潜力将进一步释放。
项目地址:https://github.com/vivoCameraResearch/Magic-TryOn/










