Google DeepMind、Gemini 3.1 Flash-Liteを発表
2026年3月3日 (火)
- •Google DeepMindが、大規模な開発者ワークロード向けにスピードとコスト効率を重視した「Gemini 3.1 Flash-Lite」を公開した。
- •従来モデルと比較して、レスポンス時間が2.5倍、出力速度が45%向上している。
- •新機能「Thinking levels(思考レベル)」により、開発者は処理性能と運用のコストバランスに合わせて、推論の深さをカスタマイズできる。
Google DeepMindは、最先端モデルに共通する高コストを回避しつつ、膨大なデータ処理を可能にする「Gemini 3.1 Flash-Lite」を公開した。このモデルは、ユーザーの入力に対するシステムの応答時間(レイテンシ)を重視して設計されており、従来比で「最初のトークンが生成されるまでの時間」が2.5倍も短縮されている。これにより、カスタマーサポートやリアルタイムの監視業務など、即時性が求められる領域において、ユーザーにストレスを感じさせないスムーズな対話体験の提供が可能だ。
特に注目すべきは、推論の深さを調整できる「Thinking levels」の導入である。開発者はタスクの内容に応じて、単純な質問には計算リソースを抑えた迅速な回答を選択し、複雑な問題には多段階の深い分析を割り当てるといったカスタマイズが可能になった。処理能力と運用コストのバランスを最適化できるこの機能は、AIを大規模に運用する企業にとって極めて実用的なソリューションといえる。
「Lite」という名称でありながら、その性能は専門的な評価において極めて高い。科学分野の高度な知識を問うGPQA Diamondベンチマークで86.9%という高スコアを記録したほか、画像とテキストを扱うマルチモーダルな課題でも76.8%の精度を示した。入力100万トークンあたり0.25ドルという圧倒的なコストパフォーマンスを武器に、Googleは本モデルを次世代のAIエージェント市場における標準的なエンジンへと押し上げようとしている。