GoogleがGemma 4を発表、マルチモーダル機能を強化
- •GoogleがオープンウェイトモデルのGemma 4を公開。2Bから31Bまで4つのモデルサイズを展開。
- •31Bモデルは推論能力が従来比で29ポイント向上し、高性能モデルに匹敵する性能を実現。
- •全モデルで画像・動画・音声をネイティブにサポートし、Apache 2.0ライセンスで利用可能。
Googleは、オープンウェイトモデルのラインナップを拡充する最新シリーズ「Gemma 4」を発表した。今回のリリースでは、エッジ環境に最適化された軽量版から、フラッグシップとなる310億パラメータモデルまで、計4つの異なる規模のモデルが提供される。開発者にとって、多様なハードウェア環境で柔軟に動作する強力なツールが手に入ることは、大きな進歩といえる。
最大の特徴は、マルチモーダル機能の強化にある。従来のテキスト主体のモデルとは異なり、Gemma 4は画像、動画、音声をモデルの全サイズでネイティブに処理できるよう設計された。特に小型の「E4B」および「E2B」モデルでは音声処理が統合されており、専門的なモデルを複数組み合わせる手間を省き、開発プロセスの大幅な効率化が可能だ。
ベンチマーク性能においても世代交代を感じさせる進化を遂げた。最上位の31Bモデルは、前世代のGemma 3と比較して推論能力が29ポイント向上している。特筆すべきは、競合する同クラスのモデルと比較して、推論タスク完了に必要な出力トークン数が抑えられており、トークン効率が極めて高い点だ。運用コストと速度が重視される実運用環境において、この効率性は決定的な強みとなる。
モデルのアーキテクチャにおいても、多様な工夫が見られる。例えば、260億パラメータの「A4B」モデルでは混合専門家(MoE)手法を採用している。これはリクエストに応じてモデル内の特定部位のみを活性化させる手法で、モデル全体のパラメータ数を維持しつつ、密度モデルよりも計算コストを抑えながら高性能な結果を導き出すことが可能だ。
今回のリリースではアクセシビリティも重視されており、Apache 2.0ライセンスの採用により、従来バージョンで見られた制約の多くが撤廃された。特に2Bモデルは、4ビットの量子化を用いることで3GBのメモリ内で動作し、オンデバイス展開を容易にしている。モバイル端末やエッジデバイス上で、サーバーへの接続を介さずに高度な推論をプライベートに実行できる環境が整った。