Google、自然な音声AI「Gemini 3.1 Flash Live」を発表
2026年3月26日 (木)
- •Googleが低遅延と感情理解を強化したGemini 3.1 Flash Liveを公開し、自然な音声対話を実現。
- •新モデルはComplexFuncBench Audioで90.8%を記録し、多段階のFunction callingにおいて従来モデルを圧倒。
- •Search Liveを200カ国へ拡大し、電子透かし「SynthID」の導入により生成音声の安全性を確保。
Googleは、音声特化型AIに求められる速度とニュアンスを最適化した新モデル「Gemini 3.1 Flash Live」をリリースし、リアルタイム対話の限界を押し広げている。ユーザーの発話からAIの応答までの遅延を短縮することで、より人間に近いリズムでの会話を可能にした。さらに、このモデルは単に言葉を処理するだけでなく、声のピッチや速さといった音響信号を理解するため、ユーザーの苛立ちや困惑を察知し、それに応じて自身のトーンを調整することもできる。
開発者や企業にとって、このアップデートは複雑なタスク実行における信頼性の飛躍的な向上を意味する。実際、現実世界の会話でよく起こる不用意な割り込みに対しても堅牢であり、問題を解決するための多段階の指示、すなわちFunction callingの実行において優れた性能を発揮する。その高い能力は専門的なオーディオベンチマークでの高スコアにも裏付けられており、高度なカスタマーサービスやハンズフリーのコーディング環境における強力なツールとなるだろう。
一方、Googleは技術的なパフォーマンス向上にとどまらず、安全性とグローバルな展開にも注力している。生成されたすべての音声クリップには、誤情報対策としてAI生成コンテンツであることを識別する電子透かし「SynthID」が組み込まれた。また、優れた多言語対応能力を背景にSearch Liveの提供地域を200カ国に拡大しており、世界中のユーザーが自国語で流暢なマルチモーダル対話を行える環境を整えている。