科学家们有话说！SciArena 平台上线，多维度评测大语言模型科学表现

AI 资讯
25 年 7 月 4 日
编辑

小强

一个名为 SciArena 的全新开放平台现已上线，旨在通过人类偏好评估大型语言模型（LLM）在科学文献任务中的表现。早期结果已揭示不同模型之间存在显著的性能差距。

SciArena 由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员共同开发，旨在系统性评估专有和开源 LLM 处理科学文献任务的效果，填补了该领域系统性评估的空白。

与传统基准测试不同，SciArena 效仿 ChatbotArena 的方法，依靠真实研究人员进行评估。用户提交科学问题后，会收到两个由模型生成并引用的长格式答案，随后用户判断哪个答案更优。相关文献通过定制的 ScholarQA 检索流程获取。

迄今为止，该平台已收集了来自自然科学、工程学、生命科学和社会科学领域 102 位研究人员的 13，000 多份评估，问题涵盖概念解释和文献检索等多个方面。

在目前的排行榜上，OpenAI 的 o3 模型位居榜首，领先于 Claude-4-Opus 和 Gemini-2.5-Pro。在开源模型中，Deepseek-R1-0528 脱颖而出，其性能甚至超越了多个专有系统。研究小组指出，o3 在自然科学和工程科学领域表现尤为出色。研究人员还发现，用户在评估时最关注的是引用是否与陈述正确匹配，而非仅仅引用数量。答案长度等因素对 SciArena 的影响小于对 ChatbotArena 或 SearchArena 等平台的影响。

尽管取得了这些进展，自动化评估仍然是一个挑战。该团队还推出了一项新的基准测试 SciArena-Eval，用于测试语言模型判断其他模型答案的能力。然而，即使是表现最佳的模型，也只有约 65% 的时间能与人类偏好保持一致，这凸显了当前 LLM-as-a-Judge 系统在科学领域的局限性。

SciArena 面向公众开放，其代码、数据和 SciArena-Eval 基准测试均以开源形式提供。该平台的目标是支持开发更贴近人类在科学信息任务中需求的模型。未来，SciArena 计划增加对基于代理的研究系统的评估功能。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

科学家们有话说！SciArena 平台上线，多维度评测大语言模型科学表现

字节跳动 EX-4D 震撼开源：单目视频秒变自由视角 4D 大片

Cursor 大胆挖人！Claude Code 核心人物转投竞争对手

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

字节跳动 EX-4D 震撼开源：单目视频秒变自由视角 4D 大片

Cursor 大胆挖人！Claude Code 核心人物转投竞争对手

​人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration

Claudia 发布！优雅界面赋能 Claude Code，跨平台 AI 编程新体验

周鸿祎：AI 再强大也无法取代人类的三大能力

全球独角兽榜单出炉！SpaceX、字节跳动和 OpenAI 荣登前三甲

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration