Aider Leaderboard 公布测试结果 Kimi K2 编程能力与 Qwen3-235B-A22B 相当

近日，AiderLeaderboard 公布了最新测试结果，MoonshotAI 推出的开源模型 KimiK2 在编程任务中表现出色，编程能力与 Qwen3-235B-A22B 相当，并接近 o3-mini-high 和 Claude-3.7-Sonnet 的水平。凭借其低成本和高性能，KimiK2 被认为是终端编码 Agent 的理想选择，引发开发者社区热烈讨论。

AiderLeaderboard 揭晓:KimiK2 编程能力亮眼

AiderLeaderboard 是评估大语言模型（LLM）代码编辑能力的权威基准测试，涵盖多语言编程任务和复杂代码编辑场景。在最新测试中，KimiK2 凭借其出色的工具调用和代码执行能力，取得了与 Qwen3-235B-A22B 相当的成绩，位列开源模型前列。其表现仅略低于 o3-mini-high 和 Claude-3.7-Sonnet，但在推理成本上具有显著优势，展现了开源模型在性价比上的独特竞争力。

KimiK2 采用混合专家（MoE）架构，总参数量达 1 万亿，单次推理激活参数为 320 亿，上下文长度支持 128k。这种高效设计使其在处理复杂编程任务时表现出色，尤其在需要精确代码替换和多步骤任务的场景中表现优异。

低成本高性能: 终端编码的理想选择

KimiK2 的推理成本远低于 Claude-4-Sonnet 等专有模型，仅为 0.14 美元/百万输入 token 和 2.49 美元/百万输出 token，约为 Claude-4-Sonnet 的三分之一。这种低成本特性使其成为开发者构建终端编码 Agent 的首选。结合 ClaudeCode 环境，KimiK2 能够高效执行代码编辑、文件操作和 shell 命令，堪称「Linux 终端的智能大脑」。

在实际测试中，KimiK2 在 SWE-benchVerified 测试中取得 65.8% 的单次尝试准确率，超越 GPT-4.1（54.6%），仅次于 Claude-4-Sonnet。在 LiveCodeBench 和 EvalPlus 等基准测试中，KimiK2 分别取得 53.7% 和 80.3% 的成绩，位居开源模型之首。这些数据表明，KimiK2 在代码生成和工具调用方面已达到行业领先水平。

广泛应用场景: 从网页生成到复杂 Agent 任务

KimiK2 不仅在编程任务中表现出色，还在多场景应用中展现了强大潜力。开发者反馈显示，KimiK2 在网页生成方面表现尤为突出，甚至在某些任务中超越 Claude-4-Sonnet。其 Agent 特性支持连续工具调用和自主任务执行，适用于自动化工作流、代码调试和多步骤任务处理。例如，在视频转文字的工作流中，KimiK2 能够完整执行 Python 脚本，而其他模型如 GPT-4.1 可能因忽略流程而失败。

此外，KimiK2 支持 vLLM 和 HuggingFace 等推理框架，开发者可通过 MoonshotAI 的 API（https://platform.moonshot.ai）或 HuggingFace 上的模型权重部署，极大降低了使用门槛。其开源特性 (MIT 协议) 和对多种推理引擎的兼容性，进一步推动了社区的广泛采用。

开源 AI 的里程碑

AIbase 认为，KimiK2 的出色表现标志着开源 AI 模型在编程领域迈出了重要一步。其高性能、低成本和强大的 Agent 特性，不仅挑战了专有模型的霸主地位，也为中小型开发团队提供了构建智能编码工具的机会。KimiK2 的发布进一步证明了中国 AI 企业在全球开源生态中的领先地位，未来有望在更多领域推动创新。

目前，KimiK2 已通过 MoonshotAI 平台和 Cline 等工具开放使用，开发者可结合 ClaudeCode 环境进行测试。官方还提供了详细的部署指南，支持 vLLM 和 SGLang 等推理引擎，方便开发者快速上手。

未来展望:Agent 智能的新篇章

MoonshotAI 团队表示，KimiK2 的训练采用了大规模合成数据生成技术，模拟了数千种真实场景的工具使用，显著提升了模型的 Agent 能力。未来，团队计划进一步优化模型在多模态任务和复杂推理场景中的表现，为开发者提供更强大的工具支持。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

Aider Leaderboard 公布测试结果 Kimi K2 编程能力与 Qwen3-235B-A22B 相当

首个基于 AI 的恶意软件 LameHug 现身，窃取 Windows 设备数据

字节跳动视觉大模型负责人杨建朝宣布暂时休息，周畅接任引发关注

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​首个基于 AI 的恶意软件 LameHug 现身，窃取 Windows 设备数据

字节跳动视觉大模型负责人杨建朝宣布暂时休息，周畅接任引发关注

​ChatGPT 助力新闻网站流量增长，但难以弥补搜索流量下滑

​马斯克的 xAI 获准在孟菲斯使用甲烷发电机，引发社区抗议

​三星预计第二季度利润将减半，面临 AI 需求挑战

Manus 回应裁员传闻: 调整部分业务团队以提升运营效率

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

首个基于 AI 的恶意软件 LameHug 现身，窃取 Windows 设备数据

ChatGPT 助力新闻网站流量增长，但难以弥补搜索流量下滑

马斯克的 xAI 获准在孟菲斯使用甲烷发电机，引发社区抗议

三星预计第二季度利润将减半，面临 AI 需求挑战