GroqCloud, 초저지연 TTS 'Orpheus' 탑재
- •Groq이 실시간 음성 합성을 위해 Canopy Labs의 Orpheus TTS 모델을 GroqCloud에 전격 출시했다.
- •Orpheus-v1-english는 감정 지시 기능을 지원하며, 사우디 아라비아어 모델은 정통 방언 발음을 완벽히 구현한다.
- •OpenAI 호환 엔드포인트를 제공하며, 요금은 100만 자당 22달러부터 시작하는 글자 수 기반 체계가 적용된다.
Groq이 Canopy Labs의 Orpheus 텍스트 음성 변환(TTS) 모델을 통합하며 플랫폼 역량을 대폭 강화했다. 실시간 대화형 AI의 까다로운 요구사항을 충족하도록 설계된 이번 업데이트는 고성능 하드웨어에서 최적화된 속도를 자랑한다. 특히 풍부한 표현력의 영어 모델과 사우디 아라비아 방언 모델 두 가지가 새롭게 합류했다.
기존 솔루션을 대체하는 이번 모델들은 훨씬 더 정교하고 인간에 가까운 음성 경험을 제공하며, 인터랙티브 보이스 에이전트나 자동 고객 지원 시스템 구축에 필수적인 도구가 될 전망이다.
Orpheus-v1-english 모델의 가장 큰 차별점은 '음성 지시(vocal directions)' 기능에 있다.
개발자는 [cheerful]이나 [whisper] 같은 태그를 사용해 AI의 감정 전달 방식을 세밀하게 조정할 수 있다. 10만 시간 이상의 음성 데이터와 수십억 개의 토큰으로 학습된 이 모델은 기계적인 합성음을 넘어 인간 특유의 자연스러운 운율을 구현했다.
한편 사우디 아라비아어 모델은 기존의 표준 아랍어 합성기에서 흔히 놓치던 지역적 언어 뉘앙스와 정통 발음을 정확히 포착해냈다.
초당 약 100자의 처리량을 보장하는 이 모델들은 OpenAI 호환 엔드포인트를 통해 즉시 연결 가능하다. 덕분에 기존 AI 워크플로우를 유지하면서도 큰 진입장벽 없이 고성능 음성 기능을 도입할 수 있게 됐다. 또한, Groq은 개발자들이 효율적으로 애플리케이션을 확장할 수 있도록 예측 가능한 글자 수 기반 요금 체계를 마련했다.
이번 인프라 업데이트는 멀티모달 상호작용에서 지연 시간을 줄이려는 업계의 치열한 노력을 잘 보여준다. 인간과 AI 사이의 대화 흐름을 자연스럽게 유지하는 데 있어 단 1밀리초의 시간도 결정적인 차이를 만들기 때문이다.