AIの科学研究能力、信頼性に大きな課題
- •イェール大学の研究チームが、実世界の科学研究タスクでエージェンティックAI(自律型AI)を評価する「ResearchGym」を公開した。
- •GPT-5などのフロンティアモデルを用いた検証の結果、人間の基準を超えたのはわずか6.7%であり、深刻な信頼性の欠如が判明した。
- •リソース管理の不備やコンテキスト制限といった長期的なタスク特有の課題が、AIによる自律的な研究の実現を阻んでいる。
AIエージェントによるコード生成や質問回答の能力は飛躍的に向上しているものの、自律的に科学研究を遂行する力はいまだ不安定なままである。イェール大学(Yale University)の研究者であるアニケス・ガリカパルティ(Aniketh Garikaparthi)(イェール大学の研究員)氏らは、AI研究の複雑な多段階プロセスを評価するための新しいベンチマーク「ResearchGym」を導入した。この環境では、ICMLやICLRといったトップ会議の論文を再利用し、AIに仮説の提案から実験の実行、さらには人間が確立した基準の突破までを要求する。これにより、アイデアの構想から最終的な実装までをAIが完結させる「クローズドループ」での評価が可能となった。
検証の結果、最先端モデルにおける能力と信頼性の間に著しい乖離があることが浮き彫りになった。GPT-5やClaude Codeといったフロンティアモデルを搭載したエージェントであっても、長期間にわたって安定したパフォーマンスを維持することに苦戦している。実際に、GPT-5が元の論文の基準を上回ったのは全評価のわずか6.7%に過ぎなかった。一部では2025年のスポットライト論文に相当する成果を出すなど、際立った成功例も見られたものの、それらはあくまで例外に過ぎない。高度な学術的厳密さが求められる環境において、現在の自律型システムがいかに予測不能であるかが改めて示された形だ。
本研究では、AIが真に自律的な研究者となることを妨げる「長期的な失敗要因」をいくつか特定している。具体的には、質の低いアイデアに対する過剰な自信や、複数の実験を並行して管理する能力の不足、そしてモデルのメモリ容量やコンテキスト長による物理的な限界などが挙げられる。ResearchGymは、モデルがこれらの障害をどう乗り越えるかを追跡するための基盤を提供することで、時折見せる「天才的な閃き」を、科学的発見の加速に不可欠な「持続的な信頼性」へと変えていくための架け橋となることを目指している。