AIのツール活用能力を問う新ベンチマーク「Agentic-MME」登場
2026年4月6日 (月)
- •「Agentic-MME」は、マルチモーダルモデルによる外部ツール利用を段階的に検証する新たなベンチマークである
- •全418タスク、2,000以上の人手によるチェックポイントを用い、推論過程を詳細に評価する
- •Gemini3-proは全体で56.3%のスコアを記録したが、複雑な実務タスクでは23.0%まで低下した
AIが受動的な対話システムから、自律的にツールを操作して問題を解決する「エージェント」へと進化している。これは、検索エンジンやプログラミング環境といった外部ツールを駆使し、複雑なマルチステップの課題を遂行する新たなインテリジェンスの幕開けだ。
しかし、現在の評価手法には決定的な欠陥が存在する。従来のベンチマークは最終的な回答の正誤のみを判定し、そこにたどり着くまでの論理的なステップを軽視してきた。これに対し、「Agentic-MME」は最初のツール呼び出しから最終的な結論に至るまでのプロセス全体を検証する。6つの領域にわたる418のリアルなタスクを通じて、AIの思考プロセスを厳格に評価する仕組みだ。
モデルの推論過程を人間が検証した手順と比較することで、AIが過剰に思考しているのか、あるいはリソースを効率的に活用できていないのかが浮き彫りになる。評価結果は冷厳だ。Gemini3-proのような高性能モデルであっても、タスクが複雑化するにつれて性能は23%まで急落する。これは、現在のマルチモーダルモデルが対話には優れていても、実社会の課題解決に必要な堅牢性を備えていないことを如実に示している。