智元机器人发布机器人世界模型开源平台——Genie Envisioner

在上海宣布推出面向真实世界机器人操控的统一世界模型平台——GenieEnvisioner(GE)。这一创新平台突破了传统机器人学习系统分阶段开发的模式,将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,实现了机器人从 「看」 到 「想」 再到 「动」 的端到端推理与执行。基于约 3000 小时的真实机器人操控视频数据,GE 在跨平台泛化和长时序任务执行上展现出显著优势,为具身智能发展开辟了从视觉理解到动作执行的全新技术路径。

GE 的核心突破在于构建了基于世界模型的视觉中心建模范式。与主流的视觉-语言-行动 (VLA) 方法不同,GE 直接在视觉空间中建模机器人与环境的交互动态,完整保留了操控过程中的空间结构和时序演化信息。这种建模范式不仅赋予了 GE 高效的跨本体泛化能力,使其能够在极少量数据下实现跨平台迁移,还在长时序任务的精确执行能力上展现出巨大优势。例如,在折叠纸盒等超长步骤任务中,GE-Act 的成功率远超现有顶尖方法。

GE 平台由三个紧密集成的组件构成:GE-Base、GE-Act 和 GE-Sim。GE-Base 是整个平台的核心基础,采用自回归视频生成框架,具备多视角生成能力和稀疏记忆机制,能够处理来自多路视角输入的操控场景,并通过随机采样历史帧增强长时序推理能力。GE-Act 作为即插即用的动作模块,通过轻量级架构将视觉潜在表征转换为可执行的机器人控制指令,并采用异步推理模式实现高效实时控制。GE-Sim 则将 GE-Base 的生成能力扩展为动作条件的神经仿真器,通过层次化动作条件机制实现精确的视觉预测,支持闭环策略评估,并可作为数据引擎生成多样化的训练数据。

此外,智元机器人团队还开发了 EWMBench 评测套件,用于评估面向具身任务的世界模型质量。在与多个先进模型的对比中,GE-Base 在多项关键指标上均取得最优成绩,且与人类判断高度一致。智元机器人计划开源 GE 的全部代码、预训练模型和评测工具,推动机器人从被动执行向主动 「想象—验证—行动」 的转变。未来,GE 将扩展更多传感器模态,支持全身移动与人机协作,持续推动智能制造与服务机器人的落地应用。

🔹Projectpage

https://genie-envisioner.github.io/

🔹

https://arxiv.org/abs/2508.05635

🔹Github

https://github.com/AgibotTech/Genie-Envisioner

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

马斯克坦言谷歌 AI 领先,xAI 有望迎头赶上

2025-8-15 1:20:41

AI 资讯

如何免费用 EaseMate 制作 AI 接吻视频

2025-8-15 1:20:54

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索