METR、GPT-5.1-Codex-Maxの自律性リスクは低いと評価
2026年2月7日 (土)
- •GPT-5.1-Codex-Maxの自律性は、人間と同等のタスク遂行能力において2時間40分程度にとどまる。
- •METRの調査では、AIによる自己複製や自己改善といった壊滅的なリスクの証拠は確認されなかった。
- •モデルの性能は従来のスケーリング則に従っており、意図的に能力を隠すといった兆候も見られない。
モデル評価・脅威研究機関であるMETR(Model Evaluation and Threat Research)は、OpenAIの最新モデル「GPT-5.1-Codex-Max」が、人間の助けなしに自己改善や自己複製を行う能力があるかを検証した。その結果、本モデルは前バージョンより進化しているものの、壊滅的な自律性リスクをもたらす閾値(しきい値)には依然として遠いことが判明した。実際、このモデルがソフトウェア関連のタスクを成功させる「50%タイムホライゾン」は約2時間42分であり、人間がそれだけの時間を要する作業を半分の確率で完遂できるレベルにとどまっている。
評価には、エンジニアリング環境におけるエージェントの能力を測定するベンチマークである「HCAST(Human-Calibrated Autonomy Software Tasks)」などが用いられた。AI安全性の研究において特に懸念されるのは、AIが規制を避けるために意図的に能力を隠す「サンドバギング」という行為だ。しかし、METRがモデルの推論プロセスである「思考の連鎖 (CoT)」を詳細に分析したところ、こうした欺瞞的な行動や、スコアを不正に稼ぐ「報酬ハッキング」の証拠は見つからなかった。
OpenAIは検証のために膨大なトークン予算を投入したが、最初の500万トークンを超えると性能の伸びは著しく鈍化した。これは、現在のアーキテクチャにおいて単に「思考時間」を増やすだけでは、投資対効果が低下する「収益逓減」の状態にあることを示唆している。今回のレポートでは当面の自律性リスクは低いと結論づけられたが、研究者らは今後6ヶ月以内に技術的なブレイクスルーが起きれば、自律能力が飛躍的に高まる可能性もあると警鐘を鳴らしている。