1兆パラメーターの統合モデル「ERNIE 5.0」登場
2026年2月5日 (木)
- •1兆パラメーター規模で理解と生成を統合したマルチモーダル基盤モデル「ERNIE 5.0」が発表された。
- •超疎な混合専門家モデル(MoE)アーキテクチャにより、テキスト、画像、動画、音声を効率的に処理する。
- •独自の弾力的(エラスティック)な学習パラダイムを導入し、多様なデバイスに対応する一連のサブモデルを生成可能にした。
ERNIE 5.0は、理解と生成のギャップを埋める1兆パラメーター規模の巨大な基盤モデルであり、AI進化の重要なマイルストーンとなる。ネイティブな自己回帰システムとして設計されたこのモデルは、テキスト、画像、動画などの異なるデータを、統合された「次のトークングループ」の予測タスクとして扱う。このアプローチにより、モダリティごとに個別のモジュールを用意するのではなく、単一のまとまったフレームワークで多様な入力を処理できるようになった。
システムの核となるのは、超疎な混合専門家モデル(MoE)アーキテクチャである。この設計では特定のタスクに特化した「エキスパート」を活用するが、従来のモデルとは異なり、エキスパートのルーティングがデータ形式に依存しない。つまり、データの形式だけでなく、その複雑さに応じてモデルが内部の処理経路を動的に選択するのだ。また、大規模な運用のコストを抑えるため、研究チームは弾力的な学習パラダイムを導入した。これにより、一度の事前学習からさまざまなサイズや速度の「サブモデル」を複数生成でき、メモリや処理能力に制限のあるデバイスにも柔軟に対応可能となった。
一方、これほど大規模なマルチモーダルMoEシステムにおいて強化学習をスケールさせるには、特有の安定性の課題が伴う。テクニカルレポートでは、一貫したパフォーマンスを確保するためにチームがどのようにこれらの障壁を克服したかが詳しく述べられている。多様な要素を実用規模のモデルへと統合することに成功したERNIE 5.0は、あらゆる人間のコミュニケーションを処理できる統合AIシステムをゼロから構築する際の、新たなベンチマークを確立したと言えるだろう。