DeepSeek

5 月30

  • DeepSeek-R1-0528 官方更新日志

    01:50 作者: 小强

    DeepSeek 发布最新迭代模型 DeepSeek-R1-0528,显著提升了基准测试性能、前端功能,并减少了幻觉现象,同时支持 JSON 输出和函数调用。 官方称与 ChatGPT o3、Gemini-2.5-Pro 不相上下。

    DeepSeek
    分享到

4 月08

  • Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

    14:44 作者: 小强

    深度求索 (DeepSeek) 联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。 根据研究团队 4 月 4 日发表的论文,该技术通过 「原则合成-响应生成-批判过滤-原则优化」 的递归架构,让模型能在推理时动态修正输出。 报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本…

    DeepSeek
    分享到

2 月18

  • DeepSeek 发表纯技术论文报告 《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》

    21:39 作者: 小强

    DeepSeek 团队近日发布了一种名为 NSA(Natively Sparse Attention) 的新型稀疏注意力机制,提高了长文本处理的效率,同时保持甚至超越传统全注意力 (Full Attention) 模型的性能。 NSA 采用动态分层稀疏策略,将粗粒度的令牌压缩与细粒度的令牌选择相结合,以保留全局上下文信息和局部精度。其核心创新包括:(1) 优化计算强度以提高现代硬件的计算效率,并通过专门的实现最…

    DeepSeek发表纯技术论文报告《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》

    DeepSeek
    分享到
  • DeepSeek-AI 推出 NSA:全新原生稀疏注意力机制,大幅提升长文本处理效率

    19:00 作者: 小强

    近日,DeepSeek-AI 团队发布了一项突破性研究,提出 NSA(Natively Sparse Attention),一种原生可训练的稀疏注意力机制。该方法通过层次化稀疏策略和硬件优化,在保证模型性能的同时,将长文本处理速度提升至全注意力机制的 11.6 倍。实验表明,NSA 在知识问答、数学推理、代码生成等任务上超越现有方法,并在 64k-token 级别的长文本推理中展现出卓越的计算效率…

    DeepSeek-AI 推出 NSA:全新原生稀疏注意力机制,大幅提升长文本处理效率

    DeepSeek
    分享到

1 月28

  • NVIDIA 称 DeepSeek 的突破"完全"符合美国出口限制法规

    18:42 作者: 小强

    人工智能初创公司 DeepSeek 近日发布的 R1 模型震惊业界,其性能媲美 OpenAI 顶级模型,训练成本却仅为其五十分之一。针对外界对其 GPU 采购渠道的猜测,英伟达官方发布声明,称 DeepSeek 的突破性进展 「完全」 符合美国出口管制法规。 此前,Scale AI CEO 亚历山大·王声称 DeepSeek 拥有五万块 H100 芯片,引发关于其可能违反出口禁令的质疑。英伟达此次表态无疑是对 DeepSeek 合规性…

    NVIDIA称DeepSeek的突破" 完全" 符合美国出口限制法规

    DeepSeek
    分享到
  • DeepSeek 深夜发布全新多模态大模型 性能碾压 OpenAI

    16:06 作者: 小强

    快科技 1 月 28 日消息,爆火的国产大模型 DeepSeek 又放大招,今天凌晨突然发布 Janus-Pro 多模态大模型,进军文生图领域。 在 GenEval 和 DPG-Bench 基准测试中,Janus-Pro-7B 不仅击败了 OpenAI 的 DALL-E 3,还击败了 Stable Diffusion、Emu3-Gen 等热门模型。 Janus Pro 采用 MIT 开源协议,这意味着可无限制用于商业场景。 DeepSee…原文连接

    DeepSeek深夜发布全新多模态大模型 性能碾压OpenAI

    DeepSeek
    分享到

12 月28

  • DeepSeek 新模型误认身份,暴露 AI 训练数据污染问题

    13:34 作者: 小强

    近日,中国 AI 公司 DeepSeek 发布的最新模型 DeepSeek V3 在测试中出现异常:它自称是 OpenAI 的 ChatGPT,并能提供 OpenAI 的 API 使用说明。专家认为,这可能是由于训练数据中混入了大量 ChatGPT 生成的内容,导致模型 「身份混淆」。 随着 AI 生成内容在网络上激增,训练数据污染问题日益严重。DeepSeek 表示正在优化数据清洗流程,以提升模型的独立性和准确性。 未来 AI 开发中数…

    DeepSeek新模型误认身份,暴露AI训练数据污染问题

    ai
    分享到

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索