3D 生成补上物理短板! 当我们还在为 Midjourney 的绝美画作和 Sora 的电影级视频惊叹时,一个更加根本性的问题正悄然浮现: 为什么这些 AI 创造的 3D 世界总给人一种"塑料感"?
答案很简单,它们缺乏物理灵魂。现实世界中的每一件物品都遵循着严格的物理定律,椅子有重量和硬度,笔记本电脑的屏幕能够翻开,材质决定了手感和散热性能。然而,现有的 AI 生成 3D 模型只关心外表是否逼真,完全忽略了这些至关重要的物理属性。这种缺陷在物理仿真、机器人抓取或具身智能等硬核应用场景中立刻暴露无遗。
南洋理工大学和上海 AILab 的科学家们意识到了这个核心问题,他们推出的 PhysX-3D 项目正在为整个 3D 生成领域带来颠覆性变革。这个项目的目标明确而宏大: 打破 3D 生成的"虚拟魔咒",让 AI 创造出真正"接地气"、拥有物理灵魂的 3D 世界。
PhysX-3D 团队提出了 3D 模型的"灵魂五问",这五个核心物理维度构成了真实 3D 世界的基础架构。首先是
功能可供性维度要求 AI 理解物体的核心功能和最常被接触的部位,比如椅子的主要功能是"坐",因此坐垫和靠背就是最重要的交互区域。运动学特性则涉及物体的运动能力,包括哪些部件能动、如何运动、运动范围多大以及部件间的父子关系。最后是功能描述,要求 AI 能够用自然语言解释物体的用途和功能。
面对市场上缺乏全面物理标注数据集的困境,研究团队展现出了工程师的浪漫主义精神: 既然没有合适的"教科书",那就自己创造一个。PhysXNet 应运而生,这是全球首个系统性标注了五大物理维度的 3D 数据集,包含超过 2.6 万个精细标注的 3D 物体,扩展版 PhysXNet-XL 更是拥有超过 600 万个物理标注的 3D 模型。
数据集的构建采用了巧妙的"人机协作"标注流水线。首先由视觉语言模型 GPT-4o 等 AI 系统进行初步自动化标注,随后由人类专家进行审核和精修。对于最复杂的运动学参数,团队设计了从接触区域计算到平面拟合,再到运动轴生成的精密流程,确保每个参数都具有物理真实性。
有了 PhysXNet 这本厚实的"教科书",下一步就是教会 AI 如何生成带有物理属性的 3D 模型。PhysXGen 生成框架采用了"嫁接"与"融合"的策略,在已有的优秀几何生成模型基础上,添加一个专门理解和生成物理属性的"物理大脑"。
PhysXGen 的双分支架构设计极为精妙。结构分支继承预训练模型的几何生成能力,负责创造高质量的形状和纹理外观,这是物体的"皮囊"。物理分支则是新增模块,专门学习和生成对应的五大物理属性,这是物体的"灵魂"。两个分支通过潜空间对齐技术实现深度融合,AI 逐渐学会几何特征与物理特性之间的内在关联。
实验结果令人振奋。PhysXGen 在与传统"先几何后 GPT"方法的全面对比中取得压倒性胜利。在几何外观质量方面,新系统不仅保持了预训练模型的优势,甚至还有所提升。在物理属性预测准确度上,PhysXGen 在所有五个核心维度都全面超越基线方法,其中材质和可供性预测误差分别降低了 64% 和 72%。
定性对比更加直观地展现了 PhysXGen 的优势。对于水龙头模型,传统方法可能连基本的旋转运动都会搞错,而 PhysXGen 能够准确生成旋转关节和正确的父子部件关系。对于办公椅,新系统能精确预测海绵和织物材质,以及靠背的旋转运动特性。
PhysX-3D 项目的意义远超技术本身,它为整个 3D 内容生成领域指明了全新方向: 从单纯关注"皮囊"的几何建模,走向"灵魂"与"皮囊"兼备的物理接地建模。这种变革将深刻影响机器人学、自动驾驶、虚拟现实等众多领域的发展。
当然,通往"物理 AI"的道路依然充满挑战。现实世界中物体尺寸的长尾分布、复杂运动学关系的精确定义、从虚拟到现实的技术鸿沟等问题都需要进一步攻克。但 PhysX-3D 已经为我们打开了一扇通往物理智能世界的大门。
随着这项技术的不断成熟,未来的 AI 将不再只是虚拟世界的"空想家",而是能够真正理解和创造符合物理规律的 3D 世界,成为各个应用领域的强大"建造师"。这场从"塑料小人"到"物理灵魂"的革命,正在重新定义我们对 AI 创造力的认知边界。
论文地址:https://arxiv.org/pdf/2507.12465











