智元机器人发布机器人世界模型开源平台——Genie Envisioner

AI 资讯
25 年 8 月 15 日
编辑

小强

智元机器人在上海宣布推出面向真实世界机器人操控的统一世界模型平台——GenieEnvisioner（GE）。这一创新平台突破了传统机器人学习系统分阶段开发的模式，将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，实现了机器人从「看」到「想」再到「动」的端到端推理与执行。基于约 3000 小时的真实机器人操控视频数据，GE 在跨平台泛化和长时序任务执行上展现出显著优势，为具身智能发展开辟了从视觉理解到动作执行的全新技术路径。

GE 的核心突破在于构建了基于世界模型的视觉中心建模范式。与主流的视觉-语言-行动（VLA）方法不同，GE 直接在视觉空间中建模机器人与环境的交互动态，完整保留了操控过程中的空间结构和时序演化信息。这种建模范式不仅赋予了 GE 高效的跨本体泛化能力，使其能够在极少量数据下实现跨平台迁移，还在长时序任务的精确执行能力上展现出巨大优势。例如，在折叠纸盒等超长步骤任务中，GE-Act 的成功率远超现有顶尖方法。

GE 平台由三个紧密集成的组件构成:GE-Base、GE-Act 和 GE-Sim。GE-Base 是整个平台的核心基础，采用自回归视频生成框架，具备多视角生成能力和稀疏记忆机制，能够处理来自多路视角输入的操控场景，并通过随机采样历史帧增强长时序推理能力。GE-Act 作为即插即用的动作模块，通过轻量级架构将视觉潜在表征转换为可执行的机器人控制指令，并采用异步推理模式实现高效实时控制。GE-Sim 则将 GE-Base 的生成能力扩展为动作条件的神经仿真器，通过层次化动作条件机制实现精确的视觉预测，支持闭环策略评估，并可作为数据引擎生成多样化的训练数据。

此外，智元机器人团队还开发了 EWMBench 评测套件，用于评估面向具身任务的世界模型质量。在与多个先进模型的对比中，GE-Base 在多项关键指标上均取得最优成绩，且与人类判断高度一致。智元机器人计划开源 GE 的全部代码、预训练模型和评测工具，推动机器人从被动执行向主动「想象—验证—行动」的转变。未来，GE 将扩展更多传感器模态，支持全身移动与人机协作，持续推动智能制造与服务机器人的落地应用。

🔹Projectpage

https://genie-envisioner.github.io/

🔹Arxiv

https://arxiv.org/abs/2508.05635

🔹Github

https://github.com/AgibotTech/Genie-Envisioner

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

智元机器人发布机器人世界模型开源平台——Genie Envisioner

马斯克坦言谷歌 AI 领先，xAI 有望迎头赶上

如何免费用 EaseMate 制作 AI 接吻视频

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

马斯克坦言谷歌 AI 领先，xAI 有望迎头赶上

如何免费用 EaseMate 制作 AI 接吻视频

​Snap 推出 Lens Studio iOS 和网页应用，简化 AR 镜头创作流程

美国拟禁止州级人工智能法规，引发对消费者保护的担忧

Sam Altman 预测：2026 AI 发现新知，2027 机器人崛起，2030 智能无限！

苹果 Image Playground 迎来 ChatGPT 助力：AI 图像生成能否绝地反击？

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Snap 推出 Lens Studio iOS 和网页应用，简化 AR 镜头创作流程