Aider Leaderboard 公布测试结果 Kimi K2 编程能力与 Qwen3-235B-A22B 相当

近日,AiderLeaderboard 公布了最新测试结果,MoonshotAI 推出的模型 KimiK2 在编程任务中表现出色,编程能力与 Qwen3-235B-A22B 相当,并接近 o3-mini-high 和 -3.7-Sonnet 的水平。凭借其低成本和高性能,KimiK2 被认为是终端编码 Agent 的理想选择,引发开发者社区热烈讨论。

AiderLeaderboard 揭晓:KimiK2 编程能力亮眼

AiderLeaderboard 是评估) 代码编辑能力的权威基准测试,涵盖多语言编程任务和复杂代码编辑场景。在最新测试中,KimiK2 凭借其出色的工具调用和代码执行能力,取得了与 Qwen3-235B-A22B 相当的成绩,位列开源模型前列。其表现仅略低于 o3-mini-high 和 Claude-3.7-Sonnet,但在推理成本上具有显著优势,展现了开源模型在性价比上的独特竞争力。

KimiK2 采用混合专家 (MoE) 架构,总参数量达 1 万亿,单次推理激活参数为 320 亿,上下文长度支持 128k。这种高效设计使其在处理复杂编程任务时表现出色,尤其在需要精确代码替换和多步骤任务的场景中表现优异。

低成本高性能: 终端编码的理想选择

KimiK2 的推理成本远低于 Claude-4-Sonnet 等专有模型,仅为 0.14 美元/百万输入 token 和 2.49 美元/百万输出 token,约为 Claude-4-Sonnet 的三分之一。这种低成本特性使其成为开发者构建终端编码 Agent 的首选。结合 ClaudeCode 环境,KimiK2 能够高效执行代码编辑、文件操作和 shell 命令,堪称 「Linux 终端的智能大脑」。

在实际测试中,KimiK2 在 SWE-benchVerified 测试中取得 65.8% 的单次尝试准确率,超越 -4.1(54.6%),仅次于 Claude-4-Sonnet。在 LiveCodeBench 和 EvalPlus 等基准测试中,KimiK2 分别取得 53.7% 和 80.3% 的成绩,位居开源模型之首。这些数据表明,KimiK2 在代码生成和工具调用方面已达到行业领先水平。

广泛应用场景: 从网页生成到复杂 Agent 任务

KimiK2 不仅在编程任务中表现出色,还在多场景应用中展现了强大潜力。开发者反馈显示,KimiK2 在网页生成方面表现尤为突出,甚至在某些任务中超越 Claude-4-Sonnet。其 Agent 特性支持连续工具调用和自主任务执行,适用于自动化工作流、代码调试和多步骤任务处理。例如,在视频转文字的工作流中,KimiK2 能够完整执行 Python 脚本,而其他模型如 GPT-4.1 可能因忽略流程而失败。

此外,KimiK2 支持 vLLM 和 HuggingFace 等推理框架,开发者可通过 MoonshotAI 的 API(https://platform.moonshot.ai) 或 HuggingFace 上的模型权重部署,极大降低了使用门槛。其开源特性 (MIT 协议) 和对多种推理引擎的兼容性,进一步推动了社区的广泛采用。

开源 的里程碑

认为,KimiK2 的出色表现标志着开源 在编程领域迈出了重要一步。其高性能、低成本和强大的 Agent 特性,不仅挑战了专有模型的霸主地位,也为中小型开发团队提供了构建智能编码工具的机会。KimiK2 的发布进一步证明了中国 AI 企业在全球开源生态中的领先地位,未来有望在更多领域推动创新。

目前,KimiK2 已通过 MoonshotAI 平台和 Cline 等工具开放使用,开发者可结合 ClaudeCode 环境进行测试。官方还提供了详细的部署指南,支持 vLLM 和 SGLang 等推理引擎,方便开发者快速上手。

未来展望:Agent 智能的新篇章

MoonshotAI 团队表示,KimiK2 的训练采用了大规模合成数据生成技术,模拟了数千种真实场景的工具使用,显著提升了模型的 Agent 能力。未来,团队计划进一步优化模型在多模态任务和复杂推理场景中的表现,为开发者提供更强大的工具支持。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​首个基于 AI 的恶意软件 LameHug 现身,窃取 Windows 设备数据

2025-7-19 1:21:18

AI 资讯

字节跳动视觉大模型负责人杨建朝宣布暂时休息,周畅接任引发关注

2025-7-19 1:21:24

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索