中国科大与字节发布 MoGA 长视频生成模型: 分钟级多镜头短片一键生成

中国科学技术大学与即将联合发布一款具有里程碑意义的端到端长视频生成模型。该模型能够直接生成**分钟级长度、480p 分辨率、24 帧/秒 (fps)**的高质量视频,并支持多镜头场景切换,标志着国产视频生成技术在全球 竞赛中实现关键突破。

这项成果的核心创新在于其底层算法——MoGA(ModularGlobalAttention),这是一种全新的注意力机制,专为解决长视频生成中的上下文扩展与算力开销问题而设计。凭借 MoGA 的结构优化,模型可处理长达 580Ktoken 的上下文信息,大幅降低计算成本,使长时间、多场景的视频生成成为可能。

研究团队表示,传统视频生成模型往往受限于显存和计算量,只能生成几秒钟的动画 GIF 或短片。而 MoGA 的引入,让模型能够 「一次性」 生成包含多个镜头切换、视觉叙事连贯的 「迷你短片」,极大拓展了生成式视频模型的应用边界。

此外,MoGA 具有高度的模块化与兼容性,可直接与现有的高效加速库 (如 FlashAttention、xFormers、DeepSpeed 等) 集成,实现更快的训练与推理效率。这意味着该技术不仅具备科研突破意义,也具备产业落地潜力,可应用于影视创作、生成、游戏过场动画以及内容生产等领域。

随着 、Pika、 等公司相继推进短视频生成,中国科大与字节跳动此次推出的模型被认为是国内首个能真正实现分钟级长视频生成的系统,其在算法、效率和可扩展性上的领先性,或将推动中国在视频生成领域进入全球前列。

地址:https://jiawn-creator.github.io/mixture-of-groups-attention/

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Kimi For Coding 会员计划推出全新增值权益,提升开发体验

2025-10-25 1:21:05

AI 资讯

蚂蚁集团发布多模态应用 「灵光」,内置 AGI 相机,已开启内测

2025-10-25 1:21:22

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索