視覚認識を高速化:ZwZモデルが「ズーム」を内在化
2026年2月16日 (月)
- •ZwZモデルは訓練プロセスに反復的なズーム動作を組み込み、詳細なマルチモーダル認識能力を向上させた。
- •新技術「Region-to-Image Distillation」により、推論時のツール呼び出しに伴う大幅な遅延を解消した。
- •視覚モデルの「ズーム・ギャップ」を測定するための専用VQAベンチマーク「ZoomBench」を導入した。
マルチモーダルモデルは画像全体の文脈の中で小さな細部を見落としやすく、微細な認識を苦手とすることが多い。これまでの主な解決策は、推論中に特定の領域を繰り返し拡大して証拠を探す「Thinking-with-Images」という手法であった。しかし、このアプローチは計算負荷が高く、複数のツール呼び出しや繰り返しの画像処理が必要になるため、実用化の妨げとなる大きな遅延が発生するという課題を抱えていた。
そこで、研究者のライ・ウェイ(Lai Wei)氏が所属するinclusionAIのチームは、ズームのプロセスを会話段階から訓練段階へと移行させる「Region-to-Image Distillation」を提案した。この手法では、強力な教師モデルが微細にクロップされた画像を分析して高品質なラベルを生成し、その「ズーム済み」の知識をより小さな生徒モデルへと知識蒸留する。これにより、生徒モデルは推論時に手動でズームすることなく、一目で微細な詳細を認識することが可能になった。
実際に、同チームの開発した「ZwZ」モデルは複数のベンチマークでSOTAを達成しており、複雑なエージェント的動作を内在化させることで実行速度を劇的に向上させられることを証明した。また、研究チームは画像全体と局所的な理解の差を測定するために設計された新しいVQAベンチマーク「ZoomBench」も公開している。この成果は、GUIナビゲーションや文書解析など、高精度な視覚的推理が求められる分野において、より効率的なAIエージェントの実現に向けた重要な一歩となるだろう。