在研发过程中,Seed 团队收集并处理了大规模的高质量 3D 数据,构建了完整的三阶段数据处理管线,将海量异构的原始 3D 数据转化为高质量训练集。Seed3D1.0 采用基于 DiffusionTransformer 架构的模型,通过端到端的技术路线,实现从单张图像到仿真级 3D 模型的快速生成。该模型在几何生成方面表现出色,能够精确构建结构细节并保证物理完整性; 在纹理贴图生成上,通过多模态 DiffusionTransformer 架构,确保不同视角间的一致性; 在 PBR 材质生成上,采用估计方法框架,提升了材质估计的准确性。
Seed3D1.0 的生成能力在多项对比评估中展现出显著优势。在几何生成方面,1.5B 参数的 Seed3D1.0 超过了业界 3B 参数的模型,能够更准确地还原复杂物体的精细特征。在纹理材质生成方面,Seed3D1.0 在参考图像保持性方面表现优秀,特别是在精细文本生成和人物生成上优势明显。人工评测结果显示,Seed3D1.0 在几何质量、材质纹理、视觉清晰度及细节丰富度等多个维度均获得较好的评分。
Seed3D1.0 不仅能够生成单一物体的 3D 模型,还可通过分步生成策略构建完整的 3D 场景。生成的 3D 模型能够无缝导入 IsaacSim 等仿真引擎,仅需少量适配工作即可支持具身智能大模型训练。这一能力为机器人训练提供了多样化的操作场景,实现了交互式学习,并为视觉-语言-行动模型构建了全面的评估基准。
尽管 Seed3D1.0 在三维模型和场景生成中展现了良好性能,但 Seed 团队也意识到,要基于 3D 生成大模型搭建世界模型仍面临生成精度、泛化性需进一步提升等挑战。未来,团队将尝试引入多模态大语言模型(MLLM) 来提升 3D 生成的质量和鲁棒性,并推动 3D 生成模型在世界模拟器中的大规模应用。
https://seed.bytedance.com/seed3d
体验入口:
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D









