AWSとPipecat、リアルタイム音声AIの展開を加速
- •AWSとPipecat、人間のように自然な対話が可能な音声エージェント向けのサーバーレス環境を公開
- •GravitonプロセッサとマイクロVMを活用し、セキュアで高性能な実行環境を実現
- •WebRTCやWebSocketsをサポートし、ネットワーク環境に左右されないスムーズなストリーミングを最適化
AI音声エージェントにおいて自然な会話の流れを維持するには、エンドツーエンドの応答時間を1秒未満に抑える必要があるが、これを大規模に実現するのは従来困難だった。AWSはこの課題に対し、Pipecatのエージェント向けフレームワークをAmazon Bedrock AgentCore Runtimeと統合し、リアルタイムオーディオに最適化されたサーバーレス環境を提供することで応えた。分離されたマイクロVMを活用することで、各ユーザーセッションのセキュリティとプライバシーを確保しつつ、トラフィックの変動に合わせて自動でスケーリングを行い、手動でのサーバープロビジョニングを不要にしている。
デプロイ戦略は、主に3つのネットワーク転送方式に焦点を当てている。具体的には、シンプルなプロトタイピング向けのWebSockets、低遅延な本番環境向けのWebRTC、そして従来のコンタクトセンター向けの電話回線統合だ。特にWebRTCは、UDPやTURNサーバーを利用してネットワーク制限を回避し、不安定な通信環境下でもスムーズな体験を提供する。これにより、ユーザーデバイスとAIロジック間のネットワーク遅延が最小限に抑えられ、会話の没入感を損なう不自然な間(ま)の発生を防ぐことができる。
開発者は、PipecatのパイプラインをARM64コンテナとしてパッケージ化することで、Graviton搭載のAgentCore Runtime上で実行できる。このアーキテクチャは双方向ストリーミングをサポートしており、音声認識(STT)と音声合成(TTS)の同時処理や、Amazon Nova Sonicのような高度な音声生成モデルの活用が可能だ。インフラ管理をマネージドな実行環境に任せることで、エンジニアリングチームは音声のジッター対策やハードウェアの過剰プロビジョニングに煩わされることなく、エージェントの推論能力やツール利用の精緻化に専念できるようになる。