美团发布 LongCat-Video 视频生成模型，开实现时序一致性与物理运动合理性

AI 资讯
25 年 10 月 28 日
编辑

小强

今日，美团 LongCat 团队正式发布了其全新的视频生成模型——LongCat-Video。这一模型以其精准重构真实世界运行状态的能力，标志着美团在探索「世界模型」领域的重大进展。世界模型是实现下一代人工智能的核心引擎，能够帮助 AI 更好地理解、预测和重构真实世界的动态。

LongCat-Video 基于先进的 DiffusionTransformer（DiT）架构，集成了文生视频、图生视频和视频续写等多项核心功能。这一创新模型通过「条件帧数量」的设定，有效实现了任务的灵活区分，确保在不同输入条件下均能发挥出色的生成能力。LongCat-Video 在文生视频生成上能够输出 720p、30fps 的高清视频，并具备开源领域领先的语义理解和视觉呈现能力。此外，图生视频能够在动态过程中严格保留参考图像的属性与风格，展现出自然流畅的运动表现。

最为引人瞩目的是 LongCat-Video 的长视频生成能力。该模型通过视频续写任务的预训练，能够稳定输出达 5 分钟的连贯长视频，同时避免常见的色彩漂移、画质降解和动作断裂等问题。这一技术突破不仅提升了视频生成的质量，也为自动驾驶、具身智能等深度交互场景提供了坚实的技术基础。

在高效推理方面，LongCat-Video 采用了「二阶段粗到精生成」策略，并结合块稀疏注意力（BSA）和模型蒸馏优化，大幅提升了视频生成的速度和质量。该模型的推理速度提升至 10.1 倍，确保在处理长视频时依旧保持优异的生成质量。

LongCat-Video 经过严格的内部和公开基准测试，显示出在文本对齐、视觉质量和运动质量等多个维度的优秀性能，综合能力达到当前开源领域的 SOTA（StateoftheArt）水平。团队表示，LongCat-Video 的发布将大大简化长视频的创作过程，使创作者能够从 1 秒钟的灵感跃升至 5 分钟的成片。

为了让更多人体验这一先进技术，美团已在 GitHub 和 HuggingFace 上发布了 LongCat-Video 的相关资源。该项目不仅为个人创作者提供了强大的工具，也为整个视频创作行业注入了新的活力。

LongCat-Video 的发布，不仅代表着技术的进步，更是美团在智能创作领域迈出的重要一步。随着这一模型的广泛应用，未来的长视频创作将变得更加简单而富有创意。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

美团发布 LongCat-Video 视频生成模型，开实现时序一致性与物理运动合理性

ChatGPT「企业大脑」正式上线！OpenAI 推 Company Knowledge 功能，一键打通 Slack、Drive 等 12 大平台，决策效率飙升

DeepGEM 大模型落地！金域医学联手腾讯、广医一院，用 AI 精准「读取」癌症基因密码

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

ChatGPT「企业大脑」 正式上线！OpenAI 推 Company Knowledge 功能，一键打通 Slack、Drive 等 12 大平台，决策效率飙升

DeepGEM 大模型落地！金域医学联手腾讯、广医一院，用 AI 精准 「读取」 癌症基因密码

字节跳动开源 Seed-X:70 亿参数小模型支持 28 种语言翻译，性能媲美顶级大模型

秘塔搜索 API 正式上线，低至 3 分钱的高效搜索服务

商汤科技 「悟能」 具身智能平台亮相 WAIC 2025

豆蔻妇科大模型成行业首例，创业公司+钉钉打造专业级 AI

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

ChatGPT「企业大脑」正式上线！OpenAI 推 Company Knowledge 功能，一键打通 Slack、Drive 等 12 大平台，决策效率飙升

DeepGEM 大模型落地！金域医学联手腾讯、广医一院，用 AI 精准「读取」癌症基因密码

商汤科技「悟能」具身智能平台亮相 WAIC 2025