当大模型不再只是 「看图说话」 或 「文生图」,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态 AI 正迎来质的飞跃。10 月 30 日,北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5,
NSP 架构: 让 AI 学会 「预测世界如何变化」
Emu3.5 的核心突破在于其统一的 NSP 框架: 模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测 「下一个状态」 来实现端到端的智能推理。这意味着,Emu3.5 不仅能理解当前场景,还能预判操作后的结果,并据此规划
例如,用户输入 「把这张照片中的咖啡杯移到桌子右边,并调亮整体色调」,Emu3.5 不仅能精准识别对象与背景,还能分步执行移动、光照调整等复合操作,确保每一步输出都符合物理逻辑与视觉一致性。
具身智能初显: 跨场景操作能力全面升级
在实测中,Emu3.5 展现出强大的跨模态泛化与具身操作能力:
文图协同生成: 根据复杂描述 (如 「赛博朋克风格的雨夜街道,霓虹灯反射在积水路面」) 生成高细节图像;
智能图像编辑: 支持语义级修改 (如 「更换人物服装风格为复古西装」),无需手动选区;
时空动态推理: 可对视频帧序列进行连贯编辑,如 「让奔跑的角色突然停下并转身」。
这种能力使其在机器人控制、虚拟助手、智能设计等需 「感知-决策-执行」 闭环的场景中潜力巨大。
多模态融合新范式: 打破信息孤岛
不同于早期多模态模型仅做特征对齐,Emu3.5 将文本、视觉、动作等模态统一编码为可预测的状态流,实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据,普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。
智源表示,Emu3.5 将率先应用于教育 (智能课件生成)、医疗 (多模态病历分析)、娱乐 (AI 导演) 等领域,并持续开源部分能力,推动多模态生态发展。
结语: 从 「理解世界」 到 「操作世界」
Emu3.5 的发布,不仅是技术参数的升级,更是 AI 角色定位的转变——从被动响应的 「工具」,进化为主动规划的 「协作者」。当模型开始预测 「下一步会发生什么」,它便真正踏上了通往通用智能的道路。而智源,正以 NSP 架构为支点,撬动多模态 AI 的下一个爆发点。








