​字节跳动发布全新开源长文本处理模型 Seed-OSS-36B

近日,旗下的 Seed 团队在 代码分享平台 上发布了最新的大型语言模型 Seed-OSS-36B。这一新模型专注于高级推理和开发者友好性,其最大特点是支持长达 512,000 个 tokens 的输入文本处理,远超美国科技公司如 的产品。

Seed-OSS-36B 系列包括三个主要变体:Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据) 和 Seed-OSS-36B-Instruct。合成数据版本在标准基准测试中表现更为出色,适合一般用途,而不含合成数据的版本则为研究提供了一个更加纯粹的基础。Seed-OSS-36B-Instruct 则专注于任务执行和指令跟随,经过后训练以优化表现。

所有模型均采用 Apache-2.0 许可协议,意味着研究人员和开发者可以免费使用、修改和重新分发这些模型,不需支付字节跳动的许可费用。这标志着中国公司在开放源代码模型领域的又一次重要进展,同时也为国际应用提供了更多可能性。

Seed-OSS-36B 的设计和核心特征包括 36 亿个参数、64 层架构和 155,000 个 tokens 的词汇量。该模型的长文本处理能力和推理预算设置,能够让开发者根据任务复杂性调整模型的推理深度。此外,该模型在多个基准测试中展现了优异的性能,例如,在数学和编程任务上取得了业界领先的成绩。

Seed 团队还特别关注模型的可访问性,用户可以通过 HuggingFaceTransformers 进行部署,并支持 4 位和 8 位的量化格式以减少内存需求。此外,团队提供了推理、提示自定义和工具集成的脚本,进一步降低了小团队的操作门槛。

通过提供高性能和灵活部署的开放模型,字节跳动的 Seed 团队为企业、研究人员和开发者带来了新的选择。

huggingface:https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd

划重点:

🌟Seed-OSS-36B 模型支持长达 512,000 个 tokens 的输入,超越竞争对手。

💡模型分为合成数据和不含合成数据的版本,以适应不同用户需求。

🔧所有模型均可免费使用,且支持多种部署和集成方案,便于开发者操作。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

智谱 AI 发布革命性产品 AutoGLM 2.0 语音一句话即可代替双手操控全网

2025-8-22 1:22:35

AI 资讯

ElevenLabs 发布 v3 Alpha API:支持超过 70 种语言和无限数量的虚拟角色

2025-8-22 1:22:52

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索