🚀 OpenAI 推出 PaperBench 基准测试评估 AI 代理复制研究能力
#OpenAI #PaperBench #AI代理 #基准测试 #研究能力 #ICML2024 #顶级论文 #代码编写 #实验执行 #评分标准 #Claude3.5 #开源框架 #平均复制得分 #人类基线
据 Foresight News 报道,OpenAI 推出 PaperBench 基准测试,用于评估 AI 代理复制研究的能力。AI 需复制 ICML 2024 的 20 篇顶级论文,涉及理解论文、编写代码及执行实验。
测试通过与原作者共同开发的细化评分标准进行,涵盖 8316 个具体要求,由 LLM 评判。结果显示,Claude 3.5 Sonnet (New) 结合开源框架表现最佳,平均复制得分 21.0%,但仍未超越人类基线。
#OpenAI #PaperBench #AI代理 #基准测试 #研究能力 #ICML2024 #顶级论文 #代码编写 #实验执行 #评分标准 #Claude3.5 #开源框架 #平均复制得分 #人类基线