統合型AIモデル、マルチモーダル理解に課題
- •新ベンチマーク「UniG2U-Bench」が、画像生成機能がモデルの理解力に与える影響を30以上のタスクで評価した。
- •統合型モデルは、直接的な視覚理解タスクにおいて、視覚言語モデル(VLM)などの特化型モデルに後れを取る傾向がある。
- •一方で、画像生成能力は中間的な視覚状態を生成することで、空間知能や複雑な推論の向上に寄与している。
AIに画像を生成させる訓練が、画像の理解力を高めることにつながるのかという問いは、研究者の間で長らく議論されてきた。新たに発表された「UniG2U-Bench」を用いた研究は、その答えが「一長一短」であることを示している。ジウェイ・リウ(Ziwei Liu)教授(AI研究者)らのチームが30以上のモデルを調査した結果、視覚と生成の両方を担う「統合型モデル」の多くが、標準的なタスクにおいて特化型モデルの性能を下回ることが判明した。
特に注目すべきは、「Generate-then-Answer (GtA)」と呼ばれる手法の意外な結果だ。これは回答前に画像を生成して「思考」を助けるアプローチだが、実際には元の入力をそのまま処理するよりも精度を下げてしまうケースが目立った。内部的な可視化を行うプロセスが、かえってノイズや余計な情報を生み出し、AIが重要な詳細に集中するのを妨げてしまう場合があるようだ。
ただし、統合型モデルには独自の強みも確認されている。このベンチマークにより、これらのモデルが空間知能や錯視の理解において優れた能力を持つことが明らかになった。3D空間での物体間の関係把握や多段階の推論が必要なタスクでは、中間的な視覚イメージを生成する能力が、AIにとって強力な思考の足場(メンタル・スキャフォールディング)として機能している。
今回の知見は、あらゆるタスクをこなす万能なマルチモーダルAIへの到達には、さらなる学習データの多様化が必要であることを示唆している。統合型AIの真の可能性を解き放つためには、創造的な生成能力と分析的な認識能力のギャップを埋めなければならない。高度な誘導バイアス(inductive bias)の設計を通じて、一つのスキルが他方を阻害するのではなく、互いに補完し合う仕組みを構築することが今後の鍵となるだろう。