ElevenLabs、感情豊かなAI音声エージェントを発表
- •ElevenLabsが、高度な感情知性とニュアンスを備えた音声エージェント向け「Expressive Mode」を導入。
- •Eleven v3 Conversationalモデルにより、顧客対応の不満解消などに適した動的なトーン制御が可能に。
- •Scribe v2 Realtimeを活用した新システムが、話者のストレスを検知し応答のタイミングを最適化。
AIとの音声対話における「機械的な不自然さ」が、ついに解消されようとしている。ElevenLabsは、自社の音声エージェント・プラットフォーム「ElevenAgents」において、新機能「Expressive Mode」を公開した。このアップデートは合成音声と人間の共感の間にあった溝を埋めるものであり、エージェントはユーザーの声から不満や安堵を読み取り、適切なトーンとタイミングで応答できる。最新のEleven v3 Conversationalモデルを統合したことで、単なる音声合成を超え、文脈を維持した自然な対話が実現したのである。
この技術的進歩は、二つの柱によって支えられている。まず、感情的な知性を司る「脳」の役割を果たすのが、Eleven v3 Conversationalモデルだ。これにより開発者は、怒っている利用者には「穏やかな解決者」、技術的な質問には「簡潔なガイド」といった具合に、特定のペルソナに合わせてエージェントを誘導できる。この高度な制御機能は、ブランドが一貫した個性を保ちながら、変化の激しいカスタマーサービスの現場に柔軟に対応することを可能にする。
次に、Scribe v2 Realtimeを搭載した高度なターンテーキング(話者交代)システムが、AIに「話すべき時」と「聞くべき時」を正確に判断させる。話すペースや音量の変化をリアルタイムで分析することで、エージェントはユーザーが単に息を吸っただけなのか、あるいは強いストレスを感じて言葉を詰まらせたのかを識別できるのだ。これにより、不自然な割り込みが大幅に減少し、70以上の言語で人間のような精度の高い応答が可能となった。
このエンタープライズ向けプラットフォームはすでに実用化が進んでおり、大手フィンテック企業のRevolutがカスタマーサポートへの導入を決定した。直近のシリーズD資金調達で5億ドルを確保し、企業価値が110億ドルに達したElevenLabsは、次世代のボイスファーストなAI体験を支えるインフラとしての地位を確固たるものにしている。