港大携手快手可灵突破长视频一致性瓶颈,"记忆检索"技术震撼发布

报道香港大学与可灵团队近日联合发表重磅论文 《ContextasMemory:Scene-ConsistentInteractiveLongVideoGenerationwithMemoryRetrieval》,提出革命性的"Context-as-Memory"方法,成功解决长视频生成中场景一致性控制的核心难题。

创新理念: 将历史上下文作为” 记忆” 载体

该研究的核心创新在于将历史生成的上下文视为"记忆",通过 contextlearning 技术学习上下文条件,实现长视频前后场景的高度一致性控制。研究团队发现,视频生成模型能够隐式学习视频数据中的 3D 先验,无需显式 3D 建模辅助,这一理念与谷歌 Genie3 不谋而合。

技术突破:FOV 记忆检索机制大幅提升效率

为解决历史帧序列理论上可无限延长带来的计算负担,研究团队提出基于相机轨迹视场 (FOV) 的记忆检索机制。该机制能从全部历史帧中智能筛选出与当前生成视频高度相关的帧作为记忆条件,显著提升计算效率并降低训练成本。

通过动态检索策略,系统根据相机轨迹 FOV 重叠关系判断预测帧与历史帧的关联度,大幅减少需要学习的上下文数量,实现模型训练和推理效率的质的飞跃。

数据构建与应用场景

研究团队基于 UnrealEngine5 收集了多样化场景、带有精确相机轨迹标注的长视频数据集,为技术验证提供坚实基础。用户仅需提供一张初始图像,即可沿设定相机轨迹自由探索生成的虚拟世界。

性能表现超越现有方法

实验结果显示,Context-as-Memory 在几十秒时间尺度下保持出色的静态场景记忆力,并在不同场景中展现良好泛化性。与现有 SOTA 方法对比,该技术在长视频生成场景记忆力方面实现显著性能提升,且能在未见过的开放域场景中有效保持记忆连续性。

此次突破标志着 视频生成技术向着更长时序、更高一致性的方向迈出重要一步,为虚拟世界构建、影视制作等应用领域开辟新的可能性。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

2025 中国高校计算机大赛 AIGC 创新赛在东莞落幕 6390 名学生参与竞技

2025-8-27 1:21:24

AI 资讯

豆包正式上线未成年人保护模式

2025-8-27 1:21:40

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索