【AIbase 报道】
Matrix-Game2.0 在核心能力上实现了质的飞跃,支持以每秒 25 帧的速度生成连续的视频内容,时长可达分钟级,极大地提升了生成内容的连贯性和实用性。该模型增强了对物理规律和场景语义的理解,用户通过简单的指令即可自由探索和操控虚拟环境,获得更强的沉浸感与可控性。
在技术架构方面,Matrix-Game2.0 引入了创新的视觉驱动交互建模方案,摒弃了传统依赖语言提示的生成模式。其底层基于 3D 因果变分自编码器 (VAE) 与多模态扩散 Transformer,能够高效压缩时空维度,并根据用户的动作指令逐帧生成符合物理逻辑的动态视觉序列。这种创新架构使模型具备强大的跨域适应性,支持多种场景与视觉风格的模拟。
该模型的发布突破了传统交互式世界模型的瓶颈,展示了其在游戏内容创作、虚拟现实和智能交互系统等领域的广泛应用潜力。在 GTA 和 Minecraft 等游戏场景中,Matrix-Game2.0 展现了卓越的交互能力,可生成符合物理逻辑的可交互视频。
昆仑万维表示,Matrix-Game2.0 的持续迭代与开源代表了中国在空间智能研究领域的新里程碑,将对具身智能体训练、虚拟游戏世界的快速搭建以及影视与元宇宙内容生产产生深远影响。