Meta AI、1,500超の言語に対応する「v-LCM」発表
2026年2月27日 (金)
- •Meta AIが、視覚データと1,500以上の言語を繋ぐ埋め込み空間「v-Sonar」を発表。
- •新モデル「v-LCM」は潜在拡散を活用し、動画キャプション生成などの性能を大幅に向上。
- •概念空間の統合技術により、61言語でのゼロショット視覚理解を実現。
Meta AIの研究チームは、視覚情報と膨大な数の言語との溝を埋めるべく設計されたモデル群「v-Sonar」および「v-LCM」を公開した。すでに1,500のテキスト言語と177の音声言語をサポートしている既存のSonarテキスト埋め込み空間を拡張。これにより、画像や動画を記述言語に関わらず理解できる、統一された「概念空間」を構築することに成功した。これはグローバルなAIアクセシビリティにおける大きな飛躍であり、視覚理解が英語中心のデータセットに限定されない未来を示唆している。
この技術的進歩の核心は、標準的なビジョンエンコーダからの表現を多言語テキスト空間へ直接マッピングする、事後的なアライメントパイプラインにある。これにより研究者たちは、視覚と言語を潜在的な埋め込みの統一されたシーケンスとして扱う「v-LCM」を構築した。次に来る単語を予測する従来のモデルとは異なり、v-LCMは潜在拡散の目的関数を用いてシーケンス内の次の「概念」を予測する。その結果、単なる語彙の学習ではなく、シーンの背後にある本質的な意味を効果的に学習することが可能になった。
特にリソースの少ない言語、いわゆる低リソース言語における成果は目覚ましい。大半のAIシステムが英語や中国語以外の言語で苦戦する中、v-LCMはテストされた62言語中61言語で高いパフォーマンスを維持した。さらに、分析のコアコンポーネントが英語テキストのみで訓練された場合でも、複雑な視覚シーンを解釈できるという、驚異的なゼロショットの視覚理解能力を実証。統一された概念アライメントの強力さを証明する形となった。