HopChain:多段階の視覚推論を飛躍させる新手法
2026年3月23日 (月)
- •HopChainは、長鎖の視覚推論におけるエラーの蓄積を抑えるため、多段階のデータを合成する
- •HopChainで学習したQwen3.5モデルは、24個中20個のベンチマークで性能を向上させた
- •超長鎖のChain-of-Thought推論において、50ポイント以上の精度向上を達成した
視覚言語モデル(VLM)は、複数の視覚的証拠を必要とするタスクにおいて、初期段階の些細なミスが最終的な失敗へとつながる「エラーの蓄積」に直面することが多い。この課題を解決するため、Qwenチームと清華大学LeapLabの研究者らは、複雑な多段階(マルチホップ)推論データを合成するフレームワーク「HopChain」を導入した。これは、モデルに対して論理的に依存し合う各ステップ(ホップ)の走破を促し、その都度新たな視覚的根拠を提示させることで、視覚推論の根本的なメカニズムを体系的に強化するものである。
HopChainの特筆すべき点は、特定のベンチマークに特化したデータではなく、分布外のプロキシタスクに焦点を当てていることだ。すべてのクエリが検証可能な数値解に帰着するため、視覚報酬からの強化学習(RLVR)にとって理想的なデータソースとなる。実際にこの手法をQwen3.5-35Bおよび397Bモデルの学習に統合したところ、STEM分野や文書理解、ビデオ分析などを含む24のベンチマークのうち20項目で精度が向上し、極めて高い汎用性が実証された。
一連の研究結果は、完全な推論チェーンを維持することの重要性を浮き彫りにしている。多段階のクエリを単純な形式に置き換えると性能が大幅に低下する一方で、超長鎖の推論領域における精度向上は50ポイントを上回った。真に有能なマルチモーダルAIを実現するためには、テキスト中心の推論パターンを超え、視覚に基づいた問題解決の構造的な論理を学習させる必要があることを、今回の成果は示唆している。