Meta、1500以上の言語を繋ぐ「OmniSONAR」を発表
2026年3月17日 (火)
- •Metaが、テキスト、音声、コードを数千の言語バリエーションで統合するOmniSONARを発表した。
- •BIBLEベンチマークにおいて、1,560言語の翻訳エラーを15分の1にまで劇的に削減することに成功した。
- •177の話し言葉を同一空間に統合し、高度なゼロショット音声・テキスト翻訳を実現した。
Meta AIは、数千もの言語とテキストや音声といった複数のモダリティ(形式)を繋ぐ革新的な埋め込みモデル群「OmniSONAR」を発表した。従来のシステムが数百言語程度への対応にとどまっていたのに対し、本モデルは1,500以上の言語バリエーションにおいて、テキスト、音声、コード、さらには数式までもが共有する「意味空間」を構築している。この統一されたアプローチにより、対象が書き言葉か話し言葉か、あるいはプログラムコードであるかを問わず、その本質的な意味を数学的に共通の表現で捉えることが可能となった。
英語などのリソースが豊富な言語における品質を維持しつつ、これほど前例のない規模を達成するために、研究チームは段階的な学習戦略を採用した。具体的には、まず200言語で基礎となる空間を構築し、その後に特殊な知識蒸留プロセスを通じて数千言語へと拡大させたのである。この手法は、複雑なモデルのパターンをより効率的なモデルに模倣させるものであり、システム全体のパフォーマンスを保ちながら、言語的なカバー範囲を劇的に広げることに成功した。
その成果は統計的にも顕著であり、標準的なベンチマークにおける検索エラーを半減させたほか、リソースの少ない言語の翻訳精度も大幅に向上させている。さらに、177の話し言葉を同一の空間にマッピングしたことで、高性能なゼロショット学習による翻訳も実現した。これは、学習時に一度も対になっていなかった言語や形式の間でも翻訳ができることを意味しており、OmniSONARは世界規模のAIコミュニケーションを支える多才な基盤となるだろう。