ビデオ推論の新指標「VideoDR」:自律型AIの限界が浮き彫りに
- •ビデオ内容とWeb情報の統合的な推論能力を測定する新ベンチマーク「VideoDR」が発表された。
- •自律型エージェントを用いたワークフローが、必ずしも従来の静的ワークフローを上回る結果を出さないことが判明した。
- •推論の過程で目的を見失う「ゴール・ドリフト」や長期的な一貫性の維持が現行モデルの大きな課題となっている。
リード研究者のChengwen Liu氏やAI研究者のXiaomin Yu氏を中心とする研究チームは、AIモデルが「ビデオ・ディープリサーチ」をどの程度高度に遂行できるかを厳密に検証するための新しいベンチマーク「VideoDR」を開発し、その成果を公開した。従来のビデオQA(質問応答)タスクは、主に映像内に直接含まれる視覚情報のみに依存するものが多かったが、VideoDRはそれとは一線を画す難易度を誇っている。このベンチマークは、モデルが映像から視覚的な手がかりを正確に抽出した上で、不足している外部コンテキストを補完するためにオープンウェブでの検索を行い、さらに複数の情報を繋ぎ合わせる「マルチホップ推論」を実行して正解を導き出す能力を測定するものである。これは、動画が単なる出発点に過ぎず、特定の撮影場所や歴史的事象を特定するために膨大な外部データとの照合が必要となるような、現実世界の複雑な調査業務を忠実に模倣しているといえる。
研究では、複数の最先端マルチモーダル大規模言語モデル(MLLM)を用い、それらを「固定的な処理手順を持つ静的ワークフロー」と「自律的に判断を行うエージェントシステム」という2つの異なる枠組みの下で評価した。得られた結果は、AI界隈の一般的な期待を裏切るものであり、自律型エージェントを採用することが必ずしも推論精度の向上に直結しないことが明らかになった。エージェントシステムの有効性は、ウェブ検索などの長い検索チェーンの全過程において、最初の手がかりである映像内の視覚的アンカーをどれだけ正確に保持し続けられるかに強く依存している。自律性を高めて複雑なタスクを任せるほど、思考の連鎖の中で初期の重要な根拠が失われやすくなるという、エージェント型アプローチ特有のトレードオフの関係が浮き彫りになった。
研究チームは、現在のモデルがビデオベースの複雑な調査タスクを完全にマスターすることを妨げている主要な要因として、「ゴール・ドリフト」と「ロングホライズンの一貫性」という2つの致命的なボトルネックを特定した。ゴール・ドリフトとは、エージェントが情報収集や推論を繰り返す過程で、本来解くべき問いから徐々に目的が逸れてしまう現象を指す。また、長い時間軸にわたって論理的な整合性を保つ能力の欠如も深刻な課題として挙げられている。テキストや映像といった多様な入力を同時に統合処理する能力に加え、複数の証拠や論理的ステップを統合する高度な推論プロセスを、長期的な文脈の中でいかに安定させるかが、次世代のAI開発における最重要テーマになるだろう。