画像の「理解」と「生成」を統合する新モデル「Cheers」
- •Cheersは視覚的な細部と意味情報を切り離すことで、マルチモーダル理解と画像生成のタスクを統合した。
- •新たなアーキテクチャにより4倍のトークン圧縮を実現し、低コストで高解像度画像の効率的な処理を可能にした。
- •GenEvalなどのベンチマークでTar-1.5Bを上回る性能を記録しつつ、学習コストは従来の20%に抑えられている。
画像の内容を「理解」することと、画像を「生成」することを一つのAIモデルで両立させることは、長年の課題であった。画像を理解するには抽象的な「意味」が必要な一方で、生成には画素レベルの精緻な「細部」が求められるからだ。これら二つの目的は同じニューラルネットワーク内で衝突しやすく、同時に最適化することは非常に困難とされてきた。
清華大学のAI研究者である劉知遠らが提案した新たなモデル「Cheers」は、パッチレベルの詳細と意味表現を分離することでこの問題を解決した。専用のビジョントークナイザと、カスケード型のフローマッチングヘッドを採用したシステムにより、画像をより効率的に処理できるようになったのである。このデカップリング(分離)により、モデルは画像の「意味」を安定して把握しつつ、ゲート付きのディテール残差を用いて精細な質感を補い、高精細なビジュアルを作り出すことに成功した。
この研究で最も注目すべきは、その圧倒的な効率性である。Cheersは、画像データをAIが読み取るための単位に変換する「トークン圧縮」において、既存の手法より4倍高い圧縮率を実現した。これにより、計算リソースを大幅に節約しながら高解像度の画像を扱えるようになった。実際のテストでは、より大規模なTar-1.5Bモデルに匹敵、あるいはそれを上回る性能を主要なベンチマークで示している。
特筆すべきは、これほど高度なマルチモーダル・システムでありながら、一般的な学習コストのわずか20%でこれらの成果を達成した点である。テキスト用の自己回帰デコーディングと画像用の拡散デコーディングを一つのTransformer内で統合したCheersは、次世代の効率的なオールインワンAIアシスタントに向けた、スケーラブルな設計図を提示したといえる。