알리바바, 3초면 끝나는 음성 복제 ‘Qwen3-TTS’ 공개
2026년 1월 25일 (일)
- •Alibaba Qwen 팀이 10개 언어를 지원하는 다국어 TTS 모델 'Qwen3-TTS'를 오픈소스로 공개했다.
- •3초 분량의 오디오만으로 고정밀 음성 복제가 가능하며, 자연어 프롬프트를 통해 목소리 특성을 정교하게 디자인할 수 있다.
- •로컬 및 브라우저 실행이 가능한 0.6B와 1.7B 경량 버전을 Apache 2.0 라이선스로 배포했다.
Alibaba Qwen 팀이 고정밀 음성 합성 및 복제를 지원하는 차세대 모델군, Qwen3-TTS를 공식 오픈소스로 공개했다. 기존 도구들과 달리 단 3초의 샘플만으로도 화자의 고유한 목소리를 완벽하게 재현해내는 수준 높은 기술력을 선보였다. 이 모델은 10개 언어에 걸친 500만 시간의 방대한 데이터를 학습했으며, 듀얼 트랙 구조를 채택해 실시간 스트리밍 오디오 생성을 지원한다.
가장 인상적인 특징은 텍스트 설명을 통한 음성 제어 기능이다. 사용자는 "거친 목소리"나 "활기찬 해적의 말투" 같은 자연어 프롬프트를 입력해 원하는 목소리를 직접 '설계'할 수 있다. 이는 오디오를 토큰 시퀀스로 처리하는 특수 대규모 언어 모델 (LLM) 프레임워크 덕분에 가능하다. 팀은 0.6B에서 1.7B 파라미터 규모의 모델을 Apache 2.0 라이선스로 배포하여, 누구나 Hugging Face나 웹 브라우저를 통해 이 기술에 접근할 수 있도록 했다.
유명 기술 블로거 사이먼 윌리슨(Simon Willison)은 이러한 강력한 도구들의 진입 장벽이 급격히 낮아지고 있다는 점을 강조했다. 그는 Apple Silicon에 최적화된 mlx-audio 라이브러리를 활용해, 간단한 CLI 명령어만으로 모델을 로컬 실행하는 모습을 시연했다. 이제 충분한 비디오 전용 메모리(VRAM)만 있다면, 최첨단 음성 복제 기술을 연구소 밖 일반 사용자들의 PC에서도 자유롭게 구동하는 시대가 열린 것이다.