この記事の要点は？

METRが「タイムホライズン（Time Horizon）」ベンチマークを更新し、自律能力を測定するタスクを228項目に拡大 AIの自律能力は7ヶ月ごとに倍増しており、直近では89日間という驚異的なペースで加速していることが判明評価インフラを英国AI安全性研究所の「Inspect」へ移行し、テストの標準化を推進

AIの自律能力が急成長、METRが最新予測を更新

•METRが「タイムホライズン（Time Horizon）」ベンチマークを更新し、自律能力を測定するタスクを228項目に拡大
•AIの自律能力は7ヶ月ごとに倍増しており、直近では89日間という驚異的なペースで加速していることが判明
•評価インフラを英国AI安全性研究所の「Inspect」へ移行し、テストの標準化を推進

•METRが「タイムホライズン（Time Horizon）」ベンチマークを更新し、自律能力を測定するタスクを228項目に拡大
•AIの自律能力は7ヶ月ごとに倍増しており、直近では89日間という驚異的なペースで加速していることが判明
•評価インフラを英国AI安全性研究所の「Inspect」へ移行し、テストの標準化を推進

非営利の研究機関であるMETRが、AIモデルが人間の介入なしに自律的に動作できる時間を測定する指標「タイムホライズン 1.1（Time Horizon 1.1）」を公開した。今回のアップデートではタスク数を170から228へと増強し、特に人間が8時間以上かけて行うような「長期的（ロングハウル）」なタスクを重視している。これにより、AIエージェントがエラーを起こしたり人間の助けを求めたりするまでに、どれだけの仕事を完遂できるかを正確に捉えることが可能になった。

調査結果が示すのは、驚くべき指数関数的な成長だ。自律能力の向上ペースは長期的に見れば約7ヶ月で倍増しているが、最新データによればその速度はさらに加速している。実際に、2024年初頭以降、トップクラスのモデルにおける能力倍増時間はわずか89日間まで短縮された。この進化は、AIが単なるチャットボットの域を超え、数時間にわたる複雑な工程を自律的に管理できるエージェンティックAI（自律型AI）へと急速に移行している事実を裏付けている。

また、METRは評価プラットフォームを独自の「Vivaria」から、英国AI安全性研究所が提供するオープンソースの「Inspect」フレームワークへと移行した。これはAIの安全基準を世界的に標準化する動きの一環である。GPT-4oなど一部のモデルでわずかな数値の変化は見られたものの、成長の勢いは揺らいでいない。今後、GPT-5やClaude 4.5といった次世代モデルが現在の限界を突破することを見据え、METRは数日間に及ぶさらに高度なタスクの開発を急いでいる。

非営利の研究機関であるMETRが、AIモデルが人間の介入なしに自律的に動作できる時間を測定する指標「タイムホライズン 1.1（Time Horizon 1.1）」を公開した。今回のアップデートではタスク数を170から228へと増強し、特に人間が8時間以上かけて行うような「長期的（ロングハウル）」なタスクを重視している。これにより、AIエージェントがエラーを起こしたり人間の助けを求めたりするまでに、どれだけの仕事を完遂できるかを正確に捉えることが可能になった。

調査結果が示すのは、驚くべき指数関数的な成長だ。自律能力の向上ペースは長期的に見れば約7ヶ月で倍増しているが、最新データによればその速度はさらに加速している。実際に、2024年初頭以降、トップクラスのモデルにおける能力倍増時間はわずか89日間まで短縮された。この進化は、AIが単なるチャットボットの域を超え、数時間にわたる複雑な工程を自律的に管理できるエージェンティックAI（自律型AI）へと急速に移行している事実を裏付けている。

また、METRは評価プラットフォームを独自の「Vivaria」から、英国AI安全性研究所が提供するオープンソースの「Inspect」フレームワークへと移行した。これはAIの安全基準を世界的に標準化する動きの一環である。GPT-4oなど一部のモデルでわずかな数値の変化は見られたものの、成長の勢いは揺らいでいない。今後、GPT-5やClaude 4.5といった次世代モデルが現在の限界を突破することを見据え、METRは数日間に及ぶさらに高度なタスクの開発を急いでいる。

AIの自律能力が急成長、METRが最新予測を更新

タグ