美团发布 LongCat-Video 视频生成模型,开实现时序一致性与物理运动合理性

今日,美团 LongCat 团队正式发布了其全新的视频生成模型——LongCat-Video。这一模型以其精准重构真实世界运行状态的能力,标志着美团在探索 「世界模型」 领域的重大进展。世界模型是实现下一代的核心引擎,能够帮助 更好地理解、预测和重构真实世界的动态。

LongCat-Video 基于先进的 DiffusionTransformer(DiT) 架构,集成了文生视频、图生视频和视频续写等多项核心功能。这一创新模型通过 「条件帧数量」 的设定,有效实现了任务的灵活区分,确保在不同输入条件下均能发挥出色的生成能力。LongCat-Video 在文生视频生成上能够输出 720p、30fps 的高清视频,并具备领域领先的语义理解和视觉呈现能力。此外,图生视频能够在动态过程中严格保留参考图像的属性与风格,展现出自然流畅的运动表现。

最为引人瞩目的是 LongCat-Video 的长视频生成能力。该模型通过视频续写任务的预训练,能够稳定输出达 5 分钟的连贯长视频,同时避免常见的色彩漂移、画质降解和动作断裂等问题。这一技术突破不仅提升了视频生成的质量,也为自动驾驶、具身智能等深度交互场景提供了坚实的技术基础。

在高效推理方面,LongCat-Video 采用了 「二阶段粗到精生成」 策略,并结合块稀疏注意力 (BSA) 和模型蒸馏优化,大幅提升了视频生成的速度和质量。该模型的推理速度提升至 10.1 倍,确保在处理长视频时依旧保持优异的生成质量。

LongCat-Video 经过严格的内部和公开基准测试,显示出在文本对齐、视觉质量和运动质量等多个维度的优秀性能,综合能力达到当前开源领域的 SOTA(StateoftheArt) 水平。团队表示,LongCat-Video 的发布将大大简化长视频的创作过程,使能够从 1 秒钟的灵感跃升至 5 分钟的成片。

为了让更多人体验这一先进技术,美团已在 GitHub 和 上发布了 LongCat-Video 的相关资源。该项目不仅为个人创作者提供了强大的工具,也为整个视频创作行业注入了新的活力。

LongCat-Video 的发布,不仅代表着技术的进步,更是美团在智能创作领域迈出的重要一步。随着这一模型的广泛应用,未来的长视频创作将变得更加简单而富有创意。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

ChatGPT「企业大脑」 正式上线!OpenAI 推 Company Knowledge 功能,一键打通 Slack、Drive 等 12 大平台,决策效率飙升

2025-10-28 1:22:53

AI 资讯

DeepGEM 大模型落地!金域医学联手腾讯、广医一院,用 AI 精准 「读取」 癌症基因密码

2025-10-28 1:23:12

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索