近日,中国信息通信研究院 (信通院) 正式推出了 「方升」 基准测试体系 3.0,标志着国内人工智能(AI) 评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级,不仅新增了模型基础属性测试,还系统性地评估了模型的参数规模和推理效率等底层特征。此外,该体系还前瞻性地布局了未来的
为了更好地实施 「方升」3.0,信通院在多个方面加强了评测基础设施的建设。首先,他们计划扩容高质量测试数据资源,将新增 300 万条数据,以满足多语言、多任务和多场景的模型评测需求。其次,信通院将系统性研究和应用先进测试方法,集中解决大模型评测中的关键技术难题,比如高质量测试数据合成与质量评估。此外,信通院还将构建新一代智能评测基座,新增多智能体交互与环境感知的仿真测试环境,以满足复杂场景下的智能体协同交互和动态环境适应能力的评估需求。
从 2024 年开始,信通院将每两个月开展一次大模型基准测试活动。
此外,代码应用能力的测试结果也显示,虽然在简单函数级任务中表现出色,但在真实项目开发中仍显短板。这也意味着国内外的技术竞争依然在加剧,智能体在多模态理解和复杂信息处理方面仍需努力。
信通院未来将继续强化大模型评测技术研发,提升评测的公信力与









