「Thinking with Map」地図活用型AIエージェントが画像位置特定の精度を劇的に改善
- •アリババの研究チームが、視覚言語モデルに地図情報を統合し、画像から撮影場所を特定する「Thinking with Map」を発表した。
- •新たに公開された「MAPBench」ベンチマークにおいて、現実世界の複雑な画像を用いた高度な地理的推論の評価が可能となった。
- •500メートル以内の特定精度において22.1%を記録し、Google検索等を利用するGemini-3-Proの8.0%を大幅に上回った。
アリババの研究者であり筆頭著者のユシアン・ジー(Yuxiang Ji)氏が率いるチームは、画像の位置特定(ジオローカリゼーション)能力を劇的に向上させる新手法「Thinking with Map」を発表した。このシステムは、視覚言語モデル(VLM)に「地図内エージェント」という推論ループを組み込み、人間が地図を確認しながら場所を特定するプロセスを模倣する。従来のモデルが内部データやテキスト検索に依存していたのに対し、本手法は能動的に地図データを探索し、視覚情報と地理情報を照らし合わせる点が特徴である。
技術的な根拠として、強化学習(RL)と視覚言語モデルの統合が挙げられる。強化学習とは、望ましい行動に報酬を与え、望ましくない行動を抑制することで学習を進める手法であり、本システムではツールの使用効率を高めるために活用されている。また、VLMは画像とテキストの両方を処理・理解できるAIモデルである。本フレームワークは二段階の最適化プロセスを採用しており、エージェント型強化学習によるツール運用の洗練と、テスト時の並列スケーリングによる複数の候補地の同時探索を組み合わせることで、高度な地理的推論を実現した。
この研究を支援するため、チームは現実世界の多様な画像で構成された包括的なベンチマーク「MAPBench」を公開した。性能評価において、この地図拡張型エージェントは半径500メートル以内での位置特定精度で22.1%を達成し、Google検索やマップ機能を利用したGemini-3-Proの8.0%という記録を圧倒した。これは、明示的な地図操作と「思考の連鎖(Chain-of-Thought)」推論を導入することで、AI特有のハルシネーション(もっともらしい嘘)を大幅に抑制し、複雑な視覚・空間タスクにおける精度を飛躍的に高められることを示唆している。
さらに、この手法は都市景観だけでなく、手がかりが乏しい自然環境下でもその真価を発揮する。複数の地理的候補を並行して評価するシステムは、広大な範囲から特定の地点を絞り込む際の計算効率と正確性のバランスを最適化している。画像内の標識や植生、建物の配置といった微細な視覚的特徴を、地図上の空間データと動的に照合する能力は、次世代のナビゲーション支援や自律型AIエージェントの発展において極めて重要な役割を果たすと考えられ、今後の社会実装が期待される。