OpenAI发布全新AI Agent评估标准：PaperBench评测基准

发布于：2025-04-03 09:32 全文约851字

OpenAI发布PaperBench基准测试，旨在评估AI代理在复制高级AI研究方面的能力，涵盖20篇ICML2024论文。测试包含8316个评分任务，采用LLM自动评分系统，Claude3.5Sonnet模型表现最佳，但尚未超越人类研究者。研究成果及代码已开源，以推动相关领域研究进展。

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。

为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真实性。

为了实现大规模评估，研究团队还开发了一种基于大型语言模型（LLM）的自动评分系统。这一系统能够根据预设的评分标准对 AI 代理的复制尝试进行评分，同时，团队也为该评分系统建立了独立的基准，以评估其性能。

在对多个前沿 AI 模型进行评测后，研究发现表现最佳的代理是 Claude3.5Sonnet（新版本），其平均复制得分为21.0%。为了进一步验证这些结果，研究人员还邀请了多位顶尖的机器学习博士生尝试 PaperBench 的部分任务，结果显示，目前的 AI 模型尚未超越人类的复制能力。

为了推动后续研究，OpenAI 团队决定将其开发的代码开源，以便更多的研究者能够利用这一平台，深入探索 AI 代理的工程能力及其在复制 AI 研究方面的潜力。

项目代码:https://github.com/openai/preparedness/tree/main/project/paperbench

划重点:

PaperBench 是一个新基准，用于评估 AI 代理复制 AI 研究的能力，涉及20篇 ICML2024论文。

该测试设计了8316个可单独评分的任务，评分标准与论文作者共同开发。

Claude3.5Sonnet 是测试中表现最好的模型，但仍未超越顶尖人类研究者。