OpenAIがAIの論文理解＆再現能力を評価するベンチマーク「PaperBench」を発表、人間とAIのどちらが研究開発力が高いのか？

OpenAIが、AIが最先端の研究論文を理解して再現できるかを評価する新しいベンチマーク「PaperBench」を発表しました。PaperBenchは、AIエージェントに20本の最新AI研究論文を一から再現させ、論文内容の理解やコード開発、実験実行の全てを評価します。