Mobile-O:スマホで画像生成・理解を完結
- •Mobile-Oは、モバイル端末上で視覚理解と画像生成をネイティブに統合することに成功
- •新開発のMCP技術により、iPhone上で512x512の画像を約3秒で生成可能
- •Show-OやJanusFlowなどの既存モデルを凌駕し、最大11倍の高速化を実現
モハメド・ビン・ザイード人工知能大学(MBZUAI)の研究チームが、エッジデバイス上で視覚理解と画像生成の両方をこなす画期的なモデル「Mobile-O」を発表した。従来のマルチモーダルモデルはモバイル端末には負荷が高すぎるか、クラウド処理に依存するのが一般的であった。しかし、Mobile-Oは完全にデバイス上で動作し、極めて高い効率性を実現している。この転換は、携帯性と性能を両立させ、プライバシーを重視したオフラインAIの実現に向けた大きな一歩となる。
この革新の中核にあるのが、モバイルコンディショニングプロジェクター(MCP)と呼ばれる特殊モジュールだ。これには、標準的な画像処理をより高速なステップに分割する「Depthwise Separable Convolution」という技術が採用されている。これにより、スマートフォンのプロセッサを酷使することなく、視覚データと言語データをスムーズに融合させることが可能になった。各層で異なるデータを整合させるアプローチにより、計算量を抑えつつ、標準的なスマートフォンのバッテリーでも高品質な生成を維持している。
実際の性能も目覚ましく、iPhone上で512x512ピクセルの画像をわずか3秒ほどで生成できる。GenEvalベンチマークでは74%というスコアを記録し、Show-OやJanusFlowといった従来の大規模モデルを速度と精度の両面で大きく上回った。このパワーと効率の共存は、高度なAIクリエイティブツールがスマートフォンのカメラと同じくらい身近で直感的なものになる未来を予感させる。
さらに、Mobile-Oは生成プロンプトと特定のQ&Aをペアにする独自の学習形式を採用している。これにより、視覚情報の「理解」と「生成」を別々のタスクとしてではなく、同時に学習することが可能となった。MBZUAIの研究者であるアブデルラーマン・シェイカー(Abdelrahman Shaker)氏らは、コード、モデル、およびモバイルアプリを一般公開しており、デバイス上でのマルチモーダルAIのさらなる発展に期待を寄せている。