この記事の要点は？

MetaのOMTシステムにより、対応言語数が200から1,600以上に拡大。 10億〜80億パラメータの特化型モデルが、700億パラメータの汎用モデルの性能を凌駕。新たな評価ツール「BOUQuET」により、希少言語を含む多様な言語族での信頼性の高いテストを実現。

Meta、1,600以上の言語に対応する機械翻訳を発表

•MetaのOMTシステムにより、対応言語数が200から1,600以上に拡大。
•10億〜80億パラメータの特化型モデルが、700億パラメータの汎用モデルの性能を凌駕。
•新たな評価ツール「BOUQuET」により、希少言語を含む多様な言語族での信頼性の高いテストを実現。

Meta AIの研究チームは、オムニリンガル機械翻訳（OMT）の導入により、言語的包摂性を劇的に向上させた。これまでの最先端システムであるNLLB（No Language Left Behind）は200言語をサポートしていたが、OMTはその範囲を一気に1,600言語以上にまで広げている。この進展は、AIモデルが多くの言語を理解できても正確な書き出しや発話に苦戦するという「生成のボトルネック」の解消を明確なターゲットとしている。

このシステムには2つの異なるアーキテクチャが採用された。検索拡張技術を用いてデコーダー専用モデルを翻訳に適応させた「OMT-LLaMA」と、エンコーダー・デコーダー構成をベースとした「OMT-NLLB」である。膨大な多言語コーパスに、合成データや手作業で精査されたBitext（対訳テキスト）を統合することで、これまでデジタル環境で疎外されていた数千もの言語において、一貫性のある文章生成が可能になった。

特筆すべきは、10億から80億パラメータの比較的小規模な特化型モデルが、700億パラメータを持つ巨大な汎用モデルの性能を上回ったという点だ。この驚くべき効率性は、単なるモデルの巨大化よりも、翻訳に特化したデータによる集中的な学習がより効果的であることを示唆している。Metaは研究コミュニティ支援のため、幅広い言語族にわたる翻訳の忠実度を検証する史上最大級の評価データセット「BOUQuET」を公開した。

Meta AIの研究チームは、オムニリンガル機械翻訳（OMT）の導入により、言語的包摂性を劇的に向上させた。これまでの最先端システムであるNLLB（No Language Left Behind）は200言語をサポートしていたが、OMTはその範囲を一気に1,600言語以上にまで広げている。この進展は、AIモデルが多くの言語を理解できても正確な書き出しや発話に苦戦するという「生成のボトルネック」の解消を明確なターゲットとしている。

このシステムには2つの異なるアーキテクチャが採用された。検索拡張技術を用いてデコーダー専用モデルを翻訳に適応させた「OMT-LLaMA」と、エンコーダー・デコーダー構成をベースとした「OMT-NLLB」である。膨大な多言語コーパスに、合成データや手作業で精査されたBitext（対訳テキスト）を統合することで、これまでデジタル環境で疎外されていた数千もの言語において、一貫性のある文章生成が可能になった。

特筆すべきは、10億から80億パラメータの比較的小規模な特化型モデルが、700億パラメータを持つ巨大な汎用モデルの性能を上回ったという点だ。この驚くべき効率性は、単なるモデルの巨大化よりも、翻訳に特化したデータによる集中的な学習がより効果的であることを示唆している。Metaは研究コミュニティ支援のため、幅広い言語族にわたる翻訳の忠実度を検証する史上最大級の評価データセット「BOUQuET」を公開した。

Meta、1,600以上の言語に対応する機械翻訳を発表

タグ