この記事の要点は？

Google DeepMindは、ローカルデバイス向けのオープンウェイトなマルチモーダルモデル群「Gemma 4」を公開した。 2Bから31Bのパラメータサイズを展開し、テキスト、画像、音声の入力をネイティブに処理する。効率的な推論と長文脈性能を強化する「Shared KV Cache」および「Per-Layer Embeddings」アーキテクチャを採用した。

Google DeepMind、デバイス上で動作するGemma 4を発表

•Google DeepMindは、ローカルデバイス向けのオープンウェイトなマルチモーダルモデル群「Gemma 4」を公開した。
•2Bから31Bのパラメータサイズを展開し、テキスト、画像、音声の入力をネイティブに処理する。
•効率的な推論と長文脈性能を強化する「Shared KV Cache」および「Per-Layer Embeddings」アーキテクチャを採用した。

•Google DeepMindは、ローカルデバイス向けのオープンウェイトなマルチモーダルモデル群「Gemma 4」を公開した。
•2Bから31Bのパラメータサイズを展開し、テキスト、画像、音声の入力をネイティブに処理する。
•効率的な推論と長文脈性能を強化する「Shared KV Cache」および「Per-Layer Embeddings」アーキテクチャを採用した。

Google DeepMindは、オンデバイスでの実行に最適化されたオープンウェイトモデル「Gemma 4」をリリースした。これらのモデルは、大規模なクラウドサーバーに依存することなく、ノートPCやスマートフォンといった手元のハードウェアで直接動作するように設計されている。ローカル環境で処理を完結させることで、プライバシーの保護や低遅延な応答、そしてオフラインでの利用が可能となる。

今回のモデル群は、軽量な2Bパラメータから、高性能な31Bパラメータまで計4つのサイズが用意されている。特筆すべきはマルチモーダルな機能であり、従来のテキスト処理に加えて、画像や音声データのネイティブ処理に対応した。これにより、クラウドへの接続なしで物体検知や動画ベースの質疑応答、高精度な画像キャプション生成といった複雑なタスクを実行できる。

技術面では、限られたリソースでも高いパフォーマンスを維持するための工夫が凝らされている。推論時のメモリ消費を抑制する「Shared KV Cache」や、層ごとに情報の粒度を制御する「Per-Layer Embeddings」の導入がその鍵だ。また、Apache 2ライセンスで提供されるため、開発者は自身のハードウェア上で高度なエージェント型アプリケーションを構築しやすくなるだろう。

Google DeepMindは、オンデバイスでの実行に最適化されたオープンウェイトモデル「Gemma 4」をリリースした。これらのモデルは、大規模なクラウドサーバーに依存することなく、ノートPCやスマートフォンといった手元のハードウェアで直接動作するように設計されている。ローカル環境で処理を完結させることで、プライバシーの保護や低遅延な応答、そしてオフラインでの利用が可能となる。

今回のモデル群は、軽量な2Bパラメータから、高性能な31Bパラメータまで計4つのサイズが用意されている。特筆すべきはマルチモーダルな機能であり、従来のテキスト処理に加えて、画像や音声データのネイティブ処理に対応した。これにより、クラウドへの接続なしで物体検知や動画ベースの質疑応答、高精度な画像キャプション生成といった複雑なタスクを実行できる。

技術面では、限られたリソースでも高いパフォーマンスを維持するための工夫が凝らされている。推論時のメモリ消費を抑制する「Shared KV Cache」や、層ごとに情報の粒度を制御する「Per-Layer Embeddings」の導入がその鍵だ。また、Apache 2ライセンスで提供されるため、開発者は自身のハードウェア上で高度なエージェント型アプリケーションを構築しやすくなるだろう。

Google DeepMind、デバイス上で動作するGemma 4を発表

タグ