軌道推論でVLMが「シャッフルゲーム」を攻略
2026年3月16日 (月)
- •VET-Benchにより、最新のVLMが基本的な物体追跡に苦戦している実態が浮き彫りになった。
- •固定層のTransformerは、中間ステップの補助なしに同一物体を追跡できないことが証明された。
- •新手法「SGCoT」は物体の移動軌跡を明示化し、追跡精度を90%まで劇的に向上させる。
視覚言語モデル(VLM)は、移動や入れ替えが行われる特定の物体を追い続ける「シャッフルゲーム」のような認知能力を長らく苦手としてきた。人間はこの動作を直感的かつ正確に行えるが、現在のAIモデルは物体の実際の経路を追うのではなく、色やテクスチャといった独自の視覚的特徴に依存する「近道」を選びがちだ。その結果、見た目が全く同じ物体を時間的・空間的に連続して追跡する必要がある場面では、最先端のモデルであってもランダムな予測と同程度の性能しか発揮できないのが実情である。
この課題に対し、シンガポール国立大学の研究チームは時空の連続性をテストするための診断ツール「VET-Bench」を導入した。研究チームによる分析では、標準的なTransformerアーキテクチャが、区別のつかない個体を追跡する際に根本的な限界を抱えていることが数学的に証明されている。これらのモデルは情報を固定された層で処理するため、移動を記録する構造化された方法がなければ、一連のビデオフレームを通じて物体の位置に関する持続的な記憶を維持することが困難なのだ。
そこで解決策として提案されたのが、AIに物体の軌道を実況させることで人間の論理を模倣する「Spatiotemporal Grounded Chain-of-Thought(SGCoT)」という手法である。この手法は、座標や移動の記述を中間的な推論ステップとして生成させることで、モデル内に物体の位置に関する論理的な足跡を作り出す。実際にMolmo2モデルに適用したところ、追跡精度はほぼゼロから90%以上にまで急上昇した。これは、明示的な推論プロセスを組み込むことで、視覚的追跡におけるアーキテクチャ上のボトルネックを克服できることを示している。