AIの動画理解能力を暴く新ベンチマーク
- •Video-MME-v2は複雑な動画推論をテストする厳格な3段階の階層構造を導入した
- •人間による3,300時間の注釈作業を経て、高品質で信頼性の高い評価データを構築した
- •Gemini-3-Proを含む現在の最先端モデルであっても、基本的な時間的推論に苦戦している
人工知能の発展において、現在の指標がその成功ゆえに壁に突き当たるという興味深い局面を迎えている。モデルが静止画のテストで人間と同等の性能を模倣するようになるにつれ、高いリーダーボードのスコアが真の理解力の欠如を覆い隠している実態が明らかになってきた。新しく発表されたVideo-MME-v2は、AIモデルがどのように動画を観察・解釈しているかを厳格に評価することで、この「知性の幻想」を剥ぎ取ろうとしている。
この新しいベンチマークは、単純な物体認識を超え、時間の経過やシーン内の複雑な相互作用をモデルに理解させることを強いる。研究者らは、基本的な視覚情報の収集から、秒単位や分単位での変化を捉えるTemporal Dynamics(時間的動態)、そして視覚情報を音声やテキストの手掛かりと統合するマルチモーダルな推論へと至る、段階的な3段階の階層構造を設計した。これは、モデルが偶然の推測や表面的なパターンマッチングに頼ることを防ぐための過酷な関門である。
Video-MME-v2の特筆すべき点は、その構築に費やされた膨大な人的労力にある。多くの現代的なベンチマークが自動化されたプロセスや合成データに依存する中、このフレームワークの作成者は12人の専門注釈者と50人のレビュー担当者を雇用した。彼らは合計で3,300時間以上を投じ、テスト問題の論理的な整合性を確保し、人間が実際に動画を見る感覚を忠実に反映させることに成功した。自動生成データが主流の時代において、手作業によるキュレーションへの回帰は極めて重要な意義を持つ。
これまでの検証結果は非常に示唆的である。Gemini-3-Proのような最先端システムでさえ、人間の専門家と比較すると無視できない性能差が存在する。データからは、AIモデルに共通する「階層的ボトルネック」が浮かび上がった。モデルは視覚情報を集約する初期段階でしばしば躓き、動画が進むにつれて推論が破綻してしまうのだ。興味深いことに、モデルは視覚的な欠陥を補うために字幕に大きく依存しており、音声テキストを取り除くと性能が低下することも判明した。これはAIアシスタントが進化しているとはいえ、動画を「見ている」のではなく、むしろ「読んでいる」に過ぎない可能性を示唆している。