AIの視覚探索能力を問う新ベンチマーク登場
2026年2月17日 (火)
- •DeepImageSearchは、複雑な視覚履歴ストリームにおけるAIエージェントの多段階推論を評価する。
- •時系列でつながる画像群から文脈を読み取る能力を試すベンチマーク「DISBench」が導入された。
- •二重メモリを備えたモジュール型フレームワークにより、視覚データ内の長期的な探索が可能になった。
従来の画像検索は、意味的な類似性に基づいて単一のクエリと単一の画像を照合する手法が一般的であった。しかし、現実世界の視覚データは連続的なストリームであることが多く、そこでは文脈(コンテキスト)が何よりも重要となる。DeepImageSearchは、この静的なアプローチを超え、画像検索を自律的な探索タスクとして再定義した。これは、ターゲットが過去のフレームに含まれる微細な文脈的ヒントを通じてのみ識別可能となるような「視覚履歴」を理解することをAIエージェントに要求するものだ。
この能力を評価するため、中国人民大学(RUC)のNLPIRラボに所属するドゥ・ジーチェン(Zhicheng Dou)教授らの研究チームは、複雑な計画立案を必要とする相互接続された視覚データベンチマーク「DISBench」を開発した。文脈依存型のクエリ作成は多大な労力を要するため、チームはマルチモーダルな能力を持つ視覚言語モデルを活用し、時空間的なリンクを特定した上で人間が最終確認を行う共同パイプラインを採用した。これにより、ホームセキュリティの映像やウェアラブルカメラのログといった、現実的な環境で見られる複雑な関係性をベンチマークに反映させている。
本研究では、ベースラインとしてモジュール型のエージェントフレームワークも提供されている。このシステムは二重メモリ構造を利用して「長期的なナビゲーション」を管理し、AIが以前に見たものを記憶して次にどこを見るべきかを判断できるようにする。実験の結果、現在の最先端モデルであってもこれらのタスクには苦戦しており、単なる物体認識と、次世代の検索システムに求められる高度な推論能力との間には、依然として大きな隔たりがあることが浮き彫りになった。