DeepSeek 介绍
说明
DeepSeek 是一家专注于人工智能语言模型的公司,以其创新的模型架构和高效的训练方法而闻名。DeepSeek-V3 是该公司推出的最新一代 AI 模型,具有 671B 总参数,每个 token 激活 37B 参数。该模型在多个基准测试中表现出色,包括数学、编码和多语言任务。
技术亮点
架构创新
DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。此外,DeepSeek-V3 还率先采用了无辅助损失的负载平衡策略,以实现更强大的性能。
高效训练
DeepSeek-V3 在 14.8 万亿个高质量 token 上进行了预训练,并通过监督微调和强化学习阶段来充分利用其能力。尽管模型庞大,但其完整训练仅需要 2.788M H800 GPU 小时。
性能卓越
DeepSeek-V3 在多个基准测试中取得了最先进的结果,包括数学、编码和多语言任务。该模型支持 128K 上下文窗口,提供与领先的闭源模型相当的性能,同时保持高效的推理能力。
应用场景
文本生成
DeepSeek-V3 能够生成高质量的文本内容,适用于各种写作场景,如新闻报道、博客文章等。
代码生成
该模型在代码生成方面表现出色,能够帮助开发者快速生成代码片段。
数学推理
DeepSeek-V3 在数学推理任务中表现出色,能够解决复杂的数学问题。
多语言任务
DeepSeek-V3 支持多种语言,能够处理多语言任务,如翻译和跨语言生成。
官网
DeepSeek 的官方网站是:https://www.deepseek.com/
价格
DeepSeek-V3 的价格如下表所示,以 「百万 tokens」 为单位。Token 是模型用来表示自然语言文本的最小单位,可以是一个词、一个数字或一个标点符号等。我们将根据模型输入和输出的总 token 数进行计量计费。
| 模型 | 上下文长度 | 最大输出长度 | 输入价格 (缓存命中) | 输入价格 (缓存未命中) | 输出价格 |
|---|---|---|---|---|---|
| deepseek-chat | 64K | 8K | 0.1 元/百万 tokens | 1 元/百万 tokens | 2 元/百万 tokens |
即日起至北京时间 2025-02-08 24:00,所有用户均可享受 DeepSeek-V3 API 的价格优惠。在此之后,模型价格将恢复至原价。









