Vision-DeepResearch:MLLMの調査能力を革新する
2026年2月3日 (火)
- •数十段階の推論と数百回の検索エンジン対話を可能にする、新たなマルチモーダル研究パラダイムを確立。
- •事実確認を重視するベンチマークにおいて、GPT-5やClaude-4-Sonnetなどの商用モデルを上回る性能を記録。
- •強化学習を通じて調査能力をモデル内部に「内面化」し、世界最高水準の精度を達成。
Vision-DeepResearchは、視覚情報とテキスト情報を横断する高度な多段階調査を可能にすることで、AIの情報収集能力にパラダイムシフトをもたらした。従来のマルチモーダルモデルは「視覚的ノイズ」への耐性が低く、単純な検索クエリに依存しがちであったが、本フレームワークは対象の拡大や複数主体の同時検索を可能にしている。これにより、モデルは画像を一度分析するだけでなく、必要に応じて細部をインタラクティブに拡大し、数十ステップに及ぶ推論を経て最適な証拠を導き出すのである。
研究チームは、こうした高度な調査プロセスをモデル自体に「内面化」させることに成功した。外部スクリプトで検索を制御するのではなく、高品質な初期データを用いた「コールドスタート監視」と強化学習を組み合わせることで、自律的な調査手法を学習させたのである。その結果、8Bや30B-A3Bといった比較的小規模なモデルでありながら、数百回にわたる検索エンジンとのやり取りを自律的に完遂できるようになった。
実際の性能テストにおいて、Vision-DeepResearchはGPT-5やGemini-2.5-Proといった名だたるクローズドソースモデルを、事実確認が重要な6つの主要ベンチマークで上回った。この結果は、多くのステップを要する「長期的タスク」に特化した訓練を行うことで、小規模なオープンソースモデルであっても、世界最高峰の汎用基盤モデルを凌駕できる可能性を示唆している。