この記事の要点は？

「Agentic-MME」は、マルチモーダルモデルによる外部ツール利用を段階的に検証する新たなベンチマークである全418タスク、2,000以上の人手によるチェックポイントを用い、推論過程を詳細に評価する Gemini3-proは全体で56.3%のスコアを記録したが、複雑な実務タスクでは23.0%まで低下した

AIのツール活用能力を問う新ベンチマーク「Agentic-MME」登場

Q: この記事の要点は？

「Agentic-MME」は、マルチモーダルモデルによる外部ツール利用を段階的に検証する新たなベンチマークである 全418タスク、2,000以上の人手によるチェックポイントを用い、推論過程を詳細に評価する Gemini3-proは全体で56.3%のスコアを記録したが、複雑な実務タスクでは23.0%まで低下した

•「Agentic-MME」は、マルチモーダルモデルによる外部ツール利用を段階的に検証する新たなベンチマークである
•全418タスク、2,000以上の人手によるチェックポイントを用い、推論過程を詳細に評価する
•Gemini3-proは全体で56.3%のスコアを記録したが、複雑な実務タスクでは23.0%まで低下した

AIが受動的な対話システムから、自律的にツールを操作して問題を解決する「エージェント」へと進化している。これは、検索エンジンやプログラミング環境といった外部ツールを駆使し、複雑なマルチステップの課題を遂行する新たなインテリジェンスの幕開けだ。

しかし、現在の評価手法には決定的な欠陥が存在する。従来のベンチマークは最終的な回答の正誤のみを判定し、そこにたどり着くまでの論理的なステップを軽視してきた。これに対し、「Agentic-MME」は最初のツール呼び出しから最終的な結論に至るまでのプロセス全体を検証する。6つの領域にわたる418のリアルなタスクを通じて、AIの思考プロセスを厳格に評価する仕組みだ。

モデルの推論過程を人間が検証した手順と比較することで、AIが過剰に思考しているのか、あるいはリソースを効率的に活用できていないのかが浮き彫りになる。評価結果は冷厳だ。Gemini3-proのような高性能モデルであっても、タスクが複雑化するにつれて性能は23%まで急落する。これは、現在のマルチモーダルモデルが対話には優れていても、実社会の課題解決に必要な堅牢性を備えていないことを如実に示している。

最近のAIは、単に質問に答えるだけでなく、自分でネット検索をしたり計算ソフトを動かしたりして、複雑な仕事をこなすパートナーへと進化しようとしています。これを専門的にはエージェント型AIと呼びます。しかし、これまでAIの頭の良さを測るテストは、結果さえ合っていれば良いというものがほとんどでした。まるで、テストの答えだけを見て、計算の途中のミスや、ひどいやり方に気づけないような状態だったのです。

そこで新しく登場したのが、Agentic-MMEという厳しいテストです。これは、AIが最終的な答えにたどり着くまでに、どのような手順で道具を選び、作業を進めたのかを一つずつチェックします。合計で418個の実社会に近い課題を用意し、人間が2000箇所以上のポイントで手順を細かく監視します。料理に例えるなら、出来上がった料理の味だけでなく、材料の切り方から火加減のタイミングまで、調理のプロセスすべてをプロのシェフが採点するようなイメージです。

このテストの結果は、私たちにとって少し驚くべき現実を突きつけました。最新のAIであるGemini3-proでさえ、簡単な問題なら約半数で正解できるものの、難易度が上がると正解率はわずか23パーセントまで急落してしまったのです。これは、今のAIが会話は上手でも、現実の複雑な仕事の手順を組み立てる力にはまだ課題があることを示しています。今後、AIを仕事の現場で安心して使うためには、こうした厳しい評価を通じて、失敗しない能力を鍛えていくことが不可欠です。

AIのツール活用能力を問う新ベンチマーク「Agentic-MME」登場

AIが道具を正しく使えるか判定する新しいテストが始まりました

タグ