智元机器人宣布开源通用具身基座大模型 GO-1(GenieOperator-1),这也是全球首个采用 Vision-Language-Latent-Action(ViLLA) 架构的具身智能模型。此次开源旨在降低具身智能的技术门槛,让更多开发者能够参与这一前沿技术的应用与发展。该模型的发布紧随其后的是今年 1 月开源的 AgiBotWorld 具身智能百万真机数据集。
GO-1 模型的核心是 ViLLA 架构,这一技术突破使得机器人能够更好地理解人类意图,执行更加精确的动作。与传统的 Vision-Language-Action(VLA) 架构相比,ViLLA 通过引入隐式动作标记,成功连接了图像、文本输入与机器人的实际动作。该架构的设计分为三层,首先是 VLM 多模态理解层,它基于 InternVL-2B 构建,具备处理视觉、力觉和语言等多种信息的能力。其次是 LatentPlanner 隐式规划器,能够实现复杂任务的高层次理解。最后是 ActionExpert 动作专家,通过扩散模型生成连续的高精度动作序列,以确保机器人可以执行复杂的操控任务。
此外,智元机器人还推出了 GenieStudio 开发平台,为开发者提供全方位的解决方案,包括数据采集、模型训练、仿真评测等。这一平台不仅集成了 GO-1 模型,还提供了视频训练方案和统一训练框架,极大提升了开发效率,帮助具身智能技术的快速落地。
GO-1 模型虽然基于 AgiBotG1 机器人的数据进行预训练,但经过多种机器人平台的验证测试,显示出其良好的可移植性。这一模型已在多个主流仿真平台上取得了优异的性能表现,展现了其适应不同机器人的能力。
智元机器人鼓励广大开发者访问 GitHub 仓库下载 GO-1 模型,开启具身智能的开发之旅。无论是
GitHub:
https://github.com/OpenDriveLab/AgiBot-World
https://huggingface.co/agibot-world/GO-1
划重点:
🌟全球首个开源的 ViLLA 架构模型 GO-1 正式推出。
🔧GenieStudio 开发平台提供全流程解决方案,助力开发者。
🤖GO-1 模型经过多种平台测试,展现出良好的可移植性。









