Meta AI、統一マルチモーダル・スケーリング則を発表
2026年3月5日 (木)
- •Meta AIが、次トークン予測と拡散モデルを統合してネイティブな学習を可能にするフレームワーク「Transfusion」を導入。
- •理解と生成の両タスクにおいて、表現オートエンコーダー(RAE)が最適な統一視覚表現であることを特定。
- •混合専門家モデル(MoE)の採用により、膨大なデータを要する視覚と高度な言語処理能力の間のスケーリングの差を解消。
Meta AIの研究チームは、従来の言語中心のモデルを超え、ネイティブなマルチモーダル事前学習の限界を探求する画期的な研究成果を公開した。言語の次トークン予測と視覚の拡散プロセスを統合した「Transfusion」フレームワークを活用し、テキスト、画像、動画を組み合わせたデータセットでゼロからモデルを学習させている。この手法はマルチモーダル学習の固有のダイナミズムを分離して捉えることができ、既存の言語バイアスに干渉されることなく、異なるデータタイプ間の相互作用を明らかにできるのが特徴だ。
本研究では、理解と生成の両タスクにおいて、表現オートエンコーダー(RAE)が統一視覚表現として極めて優れていることを特定した。特に注目すべきは、汎用的なマルチモーダル学習を通じて「世界モデル(World Modeling)」の能力が創発した点である。モデルが物理的な相互作用や空間的な整合性を理解し始めた事実は、統一的なアプローチが物理世界を直感的に把握するAIを開発する上で不可欠であることを示唆している。
最後に研究チームは、各モダリティにおける「スケーリングの非対称性」という課題に取り組んだ。分析により、視覚情報の精度向上には言語よりもはるかに多くのデータ量が必要であることが証明された。これに対応するため、混合専門家モデル(MoE)を採用している。これにより、言語に対する高い処理能力を維持しながら、視覚理解に必要な膨大なデータ処理を効率化することに成功した。