人工智能视频生成技术再迎重大突破!Lightricks 旗下 LTXStudio 近日发布了其
技术突破: 多尺度渲染重塑视频生成
LTX-Video13B 采用独特的多尺度渲染技术,通过先以低分辨率生成视频的粗略运动和场景布局,再逐步细化细节的创新方法,显著提升了生成速度与画质。该技术使模型在保持高质量输出的同时,生成速度比同类模型快 30 倍,渲染 5 秒视频仅需 2 秒,且能在如 NVIDIARTX4090 的消费级 GPU 上流畅运行。相比传统模型,其内存需求更低,为创作者提供了更高效的创作体验。
模型基于 DiT(DiffusionTransformer) 架构,结合先进的内核优化和 bfloat16 数据格式,进一步提升了性能。LTX-Video13B 支持 1216×704 分辨率、30 帧/秒的实时生成,适用于文本到视频、图像到视频以及视频到视频等多种生成模式,满足多样化的创作需求。
强大功能: 精准控制与无限创意
LTX-Video13B 在动作连贯性、场景结构和镜头关系理解方面表现出色,能够生成逻辑性强、细节丰富的视频内容。模型支持关键帧控制、角色与镜头运动以及多镜头组合,为用户提供细粒度的创作控制。例如,创作者可以通过文本提示或参考图像精确调整视频中的角色动作、场景切换或镜头角度,实现电影般的视觉效果。
此外,LTX-Video13B 支持视频延展和风格/动作替换功能,用户可将现有视频延长至最长 60 秒,或对视频进行风格化处理,如将现实场景转换为动画风格。这种灵活性使其在短片制作、广告创意和社交媒体内容创作中具有广泛应用潜力。
开源生态: 赋能开发者与创作者
作为开源模型,LTX-Video13B 在 GitHub 和 HuggingFace 上免费提供,允许开发者与创作者自由修改和定制。Lightricks 还提供了 LTX-Video-Trainer 工具,支持 2B 和 13B 模型的完整微调以及 LoRA(低秩适配) 训练,方便用户开发定制化的控制模型,如深度、姿势或边缘检测等。模型兼容 ComfyUI 工作流,新增的 LoopingSampler 节点支持生成任意长度的视频,确保运动一致性。
为进一步降低使用门槛,Lightricks 发布了一系列辅助工具,包括 8 位量化版本 (ltxv-13b-fp8) 和 IC-LoRADetailer,优化了在低内存设备上的运行性能。模型对初创企业和年收入低于 1000 万美元的组织免费开放,体现了 Lightricks 推动 AI 民主化的承诺。
视频生成的新里程碑
AIbase 认为,LTX-Video13B 的发布标志着开源视频生成技术迈向新高度。其多尺度渲染技术和对消费级硬件的优化,打破了传统 AI 视频生成对高性能设备的需求,为中小型团队和个人创作者提供了专业级的创作工具。结合开源社区的协作,LTX-Video13B 有望推动视频生成技术的进一步创新,广泛应用于影视、游戏、广告和教育等领域。
目前,LTX-Video13B 已集成至 LTXStudio 平台,用户可通过官方网站 (https://ltx.studio) 或 GitHub(https://github.com/Lightricks/LTX-Video) 获取模型及文档。Lightricks 还计划持续优化模型,支持更多控制类型和多模态功能,为创作者提供更强大的工具。
未来展望: 开启 AI 视频创作新篇章
Lightricks 表示,LTX-Video13B 的开发得益于与 GettyImages 等合作伙伴提供的高质量数据集,确保了输出内容的商业安全性和视觉吸引力。未来,团队将进一步探索时间变化提示和多模态生成,以支持更复杂的创作需求。AIbase 期待 LTX-Video13B 在开源社区的推动下,成为 AI 视频生成领域的标杆。
试用:https://app.ltx.studio/gen-workspace
模型下载:https://ltxv.video/#get-started








