Omni-Diffusion:マルチモーダルの理解と生成を統合
2026年3月11日 (水)
- •マスクベースの離散拡散モデルを用いた、初のAny-to-Anyマルチモーダルモデルが登場した
- •テキスト、音声、画像を単一のアーキテクチャ内で統合して処理する革新的なフレームワークを実現した
- •離散拡散モデルの採用により、従来の自己回帰型システムを上回るベンチマーク性能を記録した
現在のマルチモーダル大規模言語モデル(MLLM)は、主に次に続く情報を予測する自己回帰型アーキテクチャに依存している。この手法は効果的である一方、多様なデータを扱う際の効率性や柔軟性に課題があった。こうした中、南京大学の研究チームは、標準的な手法から脱却した革新的なフレームワーク「Omni-Diffusion」を発表した。これはマスクベースの離散拡散モデルを活用し、テキスト、画像、音声という異なるデータタイプを単一のモデル内で同時に処理するものである。
Omni-Diffusionは、プロンプトの理解と各フォーマットでの回答生成のバランスに苦戦する従来のモデルとは異なり、マルチモーダルなトークンの同時分布を捉える。つまり、異なるデータタイプを個別のストリームとしてではなく、相互に連結した一つの全体として扱うのだ。統一されたマスクベースのアプローチにより、モデルはあらゆるモダリティの「空白」を効果的に埋めることができ、任意の入力から任意の出力を生成する複雑なAny-to-Anyの相互作用を可能にした。
この転換は、拡散モデルが次世代AIの強力な基盤となる可能性を明確に示している。実際のテストにおいて、Omni-Diffusionは複数のモダリティを処理する既存システムと同等、あるいはそれ以上の性能を発揮した。連続的な自己回帰手法から離散拡散モデルへの移行は、次世代のマルチモーダル基盤モデルにおいて、劇的なパフォーマンス向上を引き出す鍵となりそうだ。