王兴兴表示,目前机器人大模型的发展阶段,大致相当于ChatGPT 发布前的 1 至 3 年。「大家已经找到了正确的方向,但距离真正做出来的临界点还存在明显差距。」 他说。
他指出,尽管过去两年生成式 AI 在语言和视觉领域取得了突破性进展,但机器人要实现真正意义上的 「具身智能」,还需要解决感知、运动控制、交互理解等多维度的系统性挑战。
谈及 「具身智能的 ChatGPT 时刻」 何时会到来,王兴兴给出了具体判断:「当机器人能够在陌生的生活场景中,只通过语音或文字指令完成约 80% 的任务时,我们才能认为它真正迎来了 ChatGPT 时刻。」
他认为,这一目标的实现需要强大的物理世界建模能力、数据反馈机制以及实时学习体系作为支撑,而不仅仅依赖大模型本身的推理与生成能力。









