Google、生成AIの学習を効率化する「Unified Latents」を発表
- •Googleが、より効率的な潜在表現学習を実現する「Unified Latents(UL)」を導入した。
- •ImageNet-512において、学習コストを大幅に削減しながら1.4 FIDという優れたスコアを達成した。
- •Kinetics-600動画データセットで、最先端(SOTA)となる1.3 FVDという新記録を樹立した。
現在の生成モデルの多くは学習済みの潜在空間に依存しているが、Googleの研究チームはこの基礎的なパイプラインの再構築に挑んだ。新たに提案された「Unified Latents(UL)」フレームワークは、拡散モデルの数理的な枠組みを正則化プロセスに直接組み込むことで、潜在表現の学習方法を刷新するものだ。これにより、従来の固定されたエンコーダを用いる手法から、生成タスクに特化して潜在空間を最適化する統合システムへの転換が図られた。
技術的な革新の核心は、エンコーダの出力ノイズを拡散モデルの最小ノイズレベルに直接リンクさせた点にある。これにより「潜在ビットレート(圧縮された表現にどれだけの情報が含まれているかの指標)」に厳密な数学的上限を設けることが可能になった。このアプローチにより、高い再構成品質を維持しつつ、従来よりも少ない計算リソースで処理を完結させることに成功している。まさに、より少ないデータ処理能力でより多くの成果を出すシステムといえる。
実際に、ImageNet-512の標準ベンチマークにおいて、ULは1.4 FIDという極めて高い精度を記録した。特筆すべきは、広く普及しているStable Diffusionの潜在空間を利用したモデルよりも、少ない計算量(FLOPs)でこの性能を実現した点だ。また、動画生成の分野でもその実力を発揮し、Kinetics-600データセットにおいて動画品質の指標であるFVDで新たな世界記録を樹立した。
ティム・サリマンス(Tim Salimans:Googleの研究者)氏らによるこの研究は、エンコーダと拡散モデルの同時最適化が、高精度な生成AIを実現するための極めて実用的な道筋であることを示唆している。圧縮と生成の結びつきを強めることで、ULは高解像度な画像や動画モデルの学習をさらに高速化させるだろう。効率性と品質の両立は、今後のAI開発における重要な鍵となるはずだ。