DeepGen 1.0:16倍超の巨大モデルを凌駕する性能
2026年2月14日 (土)
- •DeepGen 1.0は、画像生成と編集を一つのモデルでこなす50億(5B)パラメータの統合モデルである。
- •新技術「Stacked Channel Bridging」と「think tokens」により、800億(80B)パラメータ級の競合モデルを上回る精度を実現した。
- •わずか5,000万件の学習データで高いパフォーマンスを達成しており、重みとコードはオープンソースとして公開されている。
DeepGen 1.0は、マルチモーダルAIにおける効率性への劇的な転換を象徴するモデルであり、高品質な結果を得るために膨大なパラメータ数が必ずしも必要ではないことを証明した。上海人工智能創新学院(Shanghai Innovation Institute)によって開発されたこの5Bパラメータモデルは、画像生成と編集の両方を、自身の5倍から16倍ものサイズを持つモデルをも凌ぐ精度で処理する。実際に、その出力の質は既存の巨大モデルに引けを取らない水準に達している。
そのアーキテクチャには、ビジョン言語モデルの複数の階層から豊かで層状の情報を取り出す「Stacked Channel Bridging(SCB)」という革新的なフレームワークが採用された。このデータに、推論に富んだガイダンスの処理を助ける「think tokens」という特殊なプレースホルダーを組み合わせることで、複雑なプロンプトに対する構造的な理解を生成エンジンに提供している。このアプローチは、単に画像を見るだけでなく、それを修正するために必要な複雑な論理を理解する能力の間のギャップを埋めることに成功した。
プロジェクトを主導したジャチ・ワン(Jiaqi Wang)氏(AI研究員)らは、GRPOを用いた強化学習を含む3段階のトレーニング戦略を導入した。この手法は、複数の報酬関数を組み合わせて人間の好みに基づいてモデルを微調整するもので、視覚的なノイズを抑えつつ極めて高忠実な出力を保証する。さらに、重みとコードをオープンソース化することで、チームは高性能なマルチモーダル・ツールの民主化を目指した。これにより、産業規模の膨大な計算資源を持たない研究者であっても、高度な画像生成・編集ツールを構築することが可能になった。