Googleが視覚対応のGemma 4を公開
- •Google DeepMindが、Apache 2.0ライセンスの下で視覚認識能力を持つオープンモデル「Gemma 4」をリリースした。
- •新しい「Effective」パラメータアーキテクチャがPer-Layer Embeddingsを導入し、デバイス上でのパフォーマンスと効率を大幅に向上させている。
- •モデルはパラメータあたりの知能が非常に高く、複雑な推論やSVGコードの生成において優れた性能を発揮する。
Google DeepMindは、オープンウェイトモデルの効率性を飛躍的に高めた、視覚認識能力を持つ「Gemma 4」スイートを発表した。本リリースでは「パラメータあたりの知能(intelligence-per-parameter)」に焦点が当てられており、20億(2B)から310億(31B)パラメータまでの4つのモデルが提供されている。ライセンスは開発者に優しいApache 2.0であり、クラウドベースのシステムに伴う遅延やプライバシーの懸念を排除し、コンシューマー向けハードウェア上でローカルに動作する強力なモデルへの需要に応えるものだ。
核心となる技術的革新は、特にE2BおよびE4Bバリアントに導入された「Effective」パラメータサイジングにある。このアーキテクチャでは、Per-Layer Embeddings(PLE)と呼ばれる手法が採用された。これは単にレイヤーを追加してスケールアップするのではなく、各デコーダーレイヤーに個別の埋め込みテーブルを割り当ててトークンの検索を高速化する技術である。この設計により、モバイルデバイスやノートPCでも動作可能なほどメモリ使用量を抑えつつ、複雑な推論を実行することが可能になった。
テキストだけでなく、Gemma 4はマルチモーダルなタスクにおいても顕著な習熟度を示しており、特に視覚的なプロンプトからScalable Vector Graphics(SVG)などの機能的なコードを生成する推論能力に優れている。コミュニティによるローカル環境でのテストでは、最大サイズの31Bモデルにおいて初期の技術的な課題も報告されているが、全体的なベンチマークは、大規模なインフラなしで創造的かつ論理的なアプリケーションを実現できる小規模モデルの新たな基準を打ち立てたといえる。