智源发布 Emu3.5 大模型:以 「下一状态预测」 重构多模态智能,具身操作能力惊艳业界

不再只是 「看图说话」 或 「文生图」,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态 正迎来质的飞跃。10 月 30 日,正式发布其新一代多模态世界模型——.5,首次将自回归式 「下一状态预测」(Next-StatePrediction,NSP) 引入多模态序列建模,标志着 AI 从 「感知理解」 迈向 「智能操作」 的关键一步。

NSP 架构: 让 AI 学会 「预测世界如何变化」

Emu3.5 的核心突破在于其统一的 NSP 框架: 模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测 「下一个状态」 来实现端到端的智能推理。这意味着,Emu3.5 不仅能理解当前场景,还能预判操作后的结果,并据此规划最优动作路径。

例如,用户输入 「把这张照片中的咖啡杯移到桌子右边,并调亮整体色调」,Emu3.5 不仅能精准识别对象与背景,还能分步执行移动、光照调整等复合操作,确保每一步输出都符合物理逻辑与视觉一致性。

具身智能初显: 跨场景操作能力全面升级

在实测中,Emu3.5 展现出强大的跨模态泛化与具身操作能力:

文图协同生成: 根据复杂描述 (如 「赛博朋克风格的雨夜街道,霓虹灯反射在积水路面」) 生成高细节图像;

智能图像编辑: 支持语义级修改 (如 「更换人物服装风格为复古西装」),无需手动选区;

时空动态推理: 可对视频帧序列进行连贯编辑,如 「让奔跑的角色突然停下并转身」。

这种能力使其在机器人控制、虚拟助手、智能设计等需 「感知-决策-执行」 闭环的场景中潜力巨大。

多模态融合新范式: 打破信息孤岛

不同于早期多模态模型仅做特征对齐,Emu3.5 将文本、视觉、动作等模态统一编码为可预测的状态流,实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据,普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。

智源表示,Emu3.5 将率先应用于教育 (智能课件生成)、医疗 (多模态病历分析)、娱乐 (AI 导演) 等领域,并持续部分能力,推动多模态生态发展。

结语: 从 「理解世界」 到 「操作世界」

Emu3.5 的发布,不仅是技术参数的升级,更是 AI 角色定位的转变——从被动响应的 「工具」,进化为主动规划的 「协作者」。当模型开始预测 「下一步会发生什么」,它便真正踏上了通往通用智能的道路。而智源,正以 NSP 架构为支点,撬动多模态 AI 的下一个爆发点。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​xAI 升级 Grok Imagine iOS 版: 新增视频生成与提示重混

2025-10-31 1:20:57

AI 资讯

IBM 发布 Granite4.0Nano 系列: 为边缘 AI 量身打造的小型开源模型

2025-10-31 1:21:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索