中国信通院发布「方升」 3.0 大模型基准测试

AI 资讯
25 年 10 月 10 日
编辑

小强

近日，中国信息通信研究院（信通院）正式推出了「方升」基准测试体系 3.0，标志着国内人工智能(AI) 评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级，不仅新增了模型基础属性测试，还系统性地评估了模型的参数规模和推理效率等底层特征。此外，该体系还前瞻性地布局了未来的高级智能测试，聚焦全模态理解、长期记忆和自主学习等十项高级能力，为工业制造、基础科学和金融等重点行业提供了更深入的场景化评测。

为了更好地实施「方升」3.0，信通院在多个方面加强了评测基础设施的建设。首先，他们计划扩容高质量测试数据资源，将新增 300 万条数据，以满足多语言、多任务和多场景的模型评测需求。其次，信通院将系统性研究和应用先进测试方法，集中解决大模型评测中的关键技术难题，比如高质量测试数据合成与质量评估。此外，信通院还将构建新一代智能评测基座，新增多智能体交互与环境感知的仿真测试环境，以满足复杂场景下的智能体协同交互和动态环境适应能力的评估需求。

从 2024 年开始，信通院将每两个月开展一次大模型基准测试活动。最新的一轮测试中，评估了 141 个大模型和 7 个智能体，涵盖了基础能力、推理能力、代码应用能力和多模态理解能力。测试结果显示，OpenAI 的 GPT-5 在综合能力上继续领先，而国内的阿里巴巴 Qwen3-Max-Preview 和月之暗面的 KimiK2 表现不俗。在多模态模型的评测中，图像理解能力也取得了突破，但在复杂逻辑推理任务上还有待提升。

此外，代码应用能力的测试结果也显示，虽然在简单函数级任务中表现出色，但在真实项目开发中仍显短板。这也意味着国内外的技术竞争依然在加剧，智能体在多模态理解和复杂信息处理方面仍需努力。

信通院未来将继续强化大模型评测技术研发，提升评测的公信力与权威性，以支撑人工智能的前沿创新和新型工业化发展。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

中国信通院发布「方升」 3.0 大模型基准测试

Razorpay 携手 OpenAI 与印度国家支付公司，重塑支付服务新体验

OpenAI 加速亚洲扩张，实惠套餐「ChatGPT Go」登陆 16 国，与谷歌争夺市场

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

Razorpay 携手 OpenAI 与印度国家支付公司，重塑支付服务新体验

OpenAI 加速亚洲扩张，实惠套餐 「ChatGPT Go」 登陆 16 国，与谷歌争夺市场

阿里巴巴 2025 财年收入 9963.47 亿元 称开启 AI 时代全新征程

​这家 AI 驱动的创业工作室计划每年孵化 10 万家新公司

微软推出 MAI-DxO AI 系统，医疗诊断准确率提升四倍

云计算巨头 Cloudflare 推出 「按爬虫付费」 市场，让网站内容变现更轻松

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

OpenAI 加速亚洲扩张，实惠套餐「ChatGPT Go」登陆 16 国，与谷歌争夺市场

阿里巴巴 2025 财年收入 9963.47 亿元称开启 AI 时代全新征程

这家 AI 驱动的创业工作室计划每年孵化 10 万家新公司

云计算巨头 Cloudflare 推出「按爬虫付费」市场，让网站内容变现更轻松