阿里开源通义万相 Wan2.2: 全球首个 MoE 架构视频生成模型震撼发布

阿里巴巴今晚正式视频生成模型"通义万相 Wan2.2",此次发布包含三款核心模型: 文生视频 (Wan2.2-T2V-A14B)、图生视频 (Wan2.2-I2V-A14B) 和统一视频生成 (Wan2.2-IT2V-5B) 模型,标志着视频生成技术迎来重大突破。

业界首创 MoE 架构,计算效率提升 50%

通义万相 2.2 率先在视频生成中引入 MoE(MixtureofExperts) 架构,有效解决了视频生成处理 Token 过长导致的计算资源消耗过大问题。其中文生视频和图生视频模型总参数量达 27B,激活参数 14B,均为业界首个使用 MoE 架构的视频生成模型。

该架构由高噪声专家模型和低噪专家模型组成,分别负责视频的整体布局和细节完善。在同参数规模下,可节省约 50% 的计算资源消耗,同时在复杂运动生成、人物交互、美学表达等维度上实现显著提升。

首创电影美学控制系统

Wan2.2 的一大亮点是首创的"电影美学控制系统",在光影、色彩、构图、微表情等方面达到专业电影水平。用户通过输入"黄昏"、"柔光"、"边缘光"、"暖色调"、"中心构图"等关键词,模型可自动生成金色落日余晖的浪漫画面; 而使用"冷色调"、"硬光"、"平衡图"、"低角度"的组合,则能生成接近科幻片的画面效果。

消费级显卡即可部署的 5B 统一模型

通义万相还开源了一款 5B 小尺寸的统一视频生成模型,单一模型同时支持文生视频和图生视频功能。该模型采用高压缩率 3DVAE 架构,时间与空间压缩比达到 4×16×16,信息压缩率提升至 64,均实现开源模型的最高水平。

该模型仅需 22G 显存 (单张消费级显卡) 即可在数分钟内生成 5 秒高清视频,是目前 24 帧每秒、720P 像素级生成速度最快的基础模型,大幅降低了 视频生成的技术门槛。

多渠道开放使用

开发者可在 GitHub、、魔搭社区下载模型和代码,企业可通过百炼调用模型 API,普通用户还可在通义万相官网和通义 APP 直接体验。

自今年 2 月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频和全能编辑等多款模型,在开源社区的下载量已超 500 万次,为 技术的普及和发展做出重要贡献。

开源地址:

GitHub:https://github.com/Wan-Video/Wan2.2

HuggingFace:https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

PPIO 亮相 WAIC 发布国内首个 Agentic AI 基础设施平台

2025-7-29 1:20:39

AI 资讯

Async-Code 发布!多 AI 并行编程神器,效率翻倍,开发者的终极选择!

2025-7-29 1:20:45

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索