トークンワーピングでマルチモーダルAIの空間認識能力が向上
2026年4月6日 (月)
- •新しいトークンワーピング手法により、マルチモーダルAIが視点の変化をより安定して視覚化可能に
- •生ピクセルの操作ではなく、内部のトークンを調整することで画質の劣化を回避
- •空間認識を評価するベンチマーク「ViewBench」で、優れた意味的整合性と推論能力を実証
マルチモーダル大規模言語モデル(MLLM)は画像認識に革命をもたらしたが、視点移動を伴う場面の理解には依然として課題がある。カメラがわずかに動くだけで、従来のシステムでは幾何学的な歪みが生じ、空間の内部表現が崩れてしまうことが多かった。韓国科学技術院(KAIST)の研究チームは、この空間認識の限界を克服するために「トークンワーピング」という手法を提唱した。
従来の手法では画像そのものを歪める際に画質が劣化しやすかったが、本手法ではモデル内部の数学的表現であるトークンを直接操作する。ターゲットとなる視点に対して格子を定義し、各点に対応するデータを取得する「後方トークンワーピング」を用いることで、画像の引き伸ばしやズレを防ぎ、シーンの意味的な一貫性を高く保つことが可能だ。
この手法は空間認識を厳格に評価する独自のベンチマーク「ViewBench」を通じて検証された。実験結果によれば、この手法は従来のピクセル操作ベースや空間特化型のファインチューニングを凌駕している。静止した画像と動的な空間理解のギャップを埋めるこの技術は、AIがより人間のように現実世界をナビゲートし、空間を把握するための重要な一歩となるだろう。