近日,美团正式发布了其
该模型基于 DiffusionTransformer(DiT) 架构,能够处理多种视频生成任务,包括文本生成视频、图像生成视频以及视频续写。其独特之处在于,不同的生成任务无需额外模型适配,形成了一个完整的任务闭环。例如,文本生成视频能够生成 720p、30fps 的高清视频,精准解析文本指令,并展现出色的语义理解和视觉呈现能力。图像生成视频则严格保留参考图像的各项特征,确保动态过程符合物理规律。视频续写功能则是 LongCat-Video 的核心优势之一,能够根据多帧前序内容续接视频,为长视频生成提供了强有力的技术支持。
LongCat-Video 具备出色的长视频生成能力,能够连续输出长达 5 分钟的视频,且在生成过程中不出现质量损失。模型通过先进的技术手段,有效避免了色彩漂移和画质降解,保证了跨帧时序一致性和物理运动合理性。此外,LongCat-Video 还结合了块稀疏注意力和条件 token 缓存机制,大幅提高了长视频生成的效率,解决了以往长视频生成在时长与质量之间的矛盾。
在高分辨率和高帧率的视频生成中,LongCat-Video 通过多重优化策略,提升了推理速度,确保了生成质量与效率的
LongCat-Video 的发布为创作者开启了长视频创作的新旅程,让视频生成变得更加简单高效。
🌟GitHub:
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
🌟ProjectPage:
https://meituan-longcat.github.io/LongCat-Video/
划重点:
🌟LongCat-Video 是美团推出的一款视频生成模型,旨在推动 AI 理解真实世界。
🎥该模型支持文本生成、图像生成和视频续写三种核心任务,实现了高质量视频生成。
⚡LongCat-Video 在长视频生成方面具备显著优势,能够稳定输出 5 分钟的连贯视频。










