ElevenLabs, 사람처럼 감정 표현하는 사실적인 AI 음성 공개
- •ElevenLabs가 높은 감성 지능과 미세한 뉘앙스를 표현하는 보이스 에이전트용 'Expressive Mode'를 출시했다.
- •새로운 Eleven v3 Conversational 모델을 통해 고객의 불만을 완화할 수 있는 공감 능력 있는 동적 톤 조절이 가능해졌다.
- •Scribe v2 Realtime을 활용한 턴테이킹 시스템이 사용자의 음성 스트레스를 감지하고 응답 타이밍을 최적화한다.
ElevenLabs가 자사의 ElevenAgents 플랫폼에 'Expressive Mode'를 도입하며 AI 음성 대화의 고질적인 문제였던 기계적인 딱딱함을 걷어냈다. 이번 업데이트는 합성 음성과 인간의 공감 능력 사이의 간극을 좁히는 데 중점을 두었다. 실제로 에이전틱 AI는 이제 사용자의 목소리에서 좌절감이나 안도감을 스스로 감지하고, 그에 걸맞은 어조와 타이밍으로 응답할 수 있다. 특히 최신 모델인 Eleven v3 Conversational을 통합함으로써, 단순한 음성 합성을 넘어 대화의 맥락을 유지하며 정해진 대본이 아닌 자연스러운 소통을 구현했다.
이러한 기술적 진보의 핵심은 이중 업그레이드 아키텍처에 있다. 우선 감성 지능의 '두뇌' 역할을 하는 Eleven v3 Conversational 모델 덕분에 개발자는 에이전트에게 특정 페르소나를 부여할 수 있게 됐다. 예를 들어 화가 난 여행객에게는 차분한 해결사로, 빠른 기술 지원이 필요한 사용자에게는 명확한 안내자로 변신하는 식이다. 이처럼 정교한 제어 기능은 브랜드가 일관된 목소리를 유지하면서도 변동성이 큰 현실의 고객 서비스 환경에 유연하게 대응하도록 돕는다.
또한 Scribe v2 Realtime을 기반으로 한 정교한 턴테이킹(대화 순서 조절) 시스템은 AI가 언제 말하고 언제 들어야 할지를 정확히 판단하게 한다. 시스템은 말하는 속도나 급격한 음량 변화와 같은 음성 신호를 분석해, 사용자가 단순히 숨을 고르는 것인지 아니면 극심한 스트레스를 느끼는 것인지 구분한다. 그 결과 어색한 대화 중단이 줄어들었으며, AI는 70개 이상의 언어에서 사람과 유사한 정밀도로 응답한다.
현재 이 기업용 플랫폼은 실제 산업 현장에서 빠르게 도입되고 있으며, 특히 글로벌 핀테크 기업인 Revolut가 고객 지원 운영을 위해 ElevenLabs를 선택해 주목받고 있다. 최근 5억 달러 규모의 시리즈 D 투자 유치를 통해 110억 달러의 기업 가치를 인정받은 ElevenLabs는 이제 차세대 음성 중심 AI 상호작용의 핵심 인프라로 자리매김하고 있다.