AIリサーチの過程を評価する新指標が登場
2026年4月2日 (木)
- •MiroEvalが100件のリアルなユーザー課題を用い、リサーチ特化型AIの性能を3つの主要次元で評価。
- •13モデルの分析により、プロセスの質が最終回答の正確性を0.88という高い相関で予測することが判明。
- •主要モデルであっても、難度の高いマルチモーダルAI課題では3〜10ポイントの大幅な性能低下を記録。
次世代のエージェンティックAI(自律型AI)を評価するには、静的な評価基準や最終レポートのスコアのみに頼る手法から脱却しなければならない。従来のベンチマークは、AIが結論に至るまでの推論プロセスを軽視し、成果物のみに焦点を当てがちであった。MiroEvalは、リサーチの過程を監査し、能動的な推論によって事実を検証する枠組みを提供することで、このギャップを埋める。さらに、情報の更新に対応するライブパイプラインを通じて、常に変化する知識を評価に取り入れている。
評価テストは、チャートや図表の解釈を要する30件のマルチモーダルAI課題を含む、100種類の多様なタスクで構成されている。合成データではなく実際のユーザーによるクエリをシミュレートすることで、現在のAIワークフローに潜む目に見えない摩擦を可視化した。特筆すべきは、検索や推論のステップ(プロセス)の質が、最終的な出力の信頼性と0.88という極めて高い相関関係にある点だ。プロセスの精度が、そのままレポートの正確さを予測する重要な指標となっている。
ClaudeやGeminiといった洗練されたモデルにとっても、マルチモーダルAIの統合は依然として大きな障壁だ。多くのシステムにおいて、テキストと画像を同時に処理する際に最大10ポイントの性能低下が確認された。評価全体ではMiroThinker-H1が最も優れた成績を収め、情報の要約力と事実性の双方でバランスの取れた評価を得た。AIの文章作成能力は日々進歩しているが、複雑で多層的な情報を的確に処理・横断する能力は、依然として解決すべき最前線の課題といえる。