Mistral AI, 음속급 속도의 Voxtral 공개
- •Mistral AI가 200ms 미만의 초저지연 시간과 최고 수준의 화자 분리 기능을 갖춘 Voxtral Transcribe 2를 출시했다.
- •Apache 2.0 라이선스 기반의 오픈 가중치 모델인 Voxtral Realtime이 공개되어 에지 기기에서의 효율적인 구동을 지원한다.
- •총 13개 언어를 지원하며, GPT-4o mini 및 Gemini 2.5 Flash 대비 압도적인 가격 경쟁력을 갖췄다.
Mistral AI가 차세대 음성 인식 모델군인 Voxtral Transcribe 2를 출시하며 음성 기술의 기준을 대폭 끌어올렸다. 이번 모델은 고효율 배치 처리와 실시간 상호작용 모두를 위해 설계되었으며, 크게 두 가지 버전으로 나뉜다. 대량의 전사 작업을 처리하는 Voxtral Mini Transcribe V2와 200ms 미만의 놀라운 지연 시간을 자랑하는 Voxtral Realtime이 그 주인공이다. 특히 이러한 초고속 응답 속도는 대화의 흐름이 끊기지 않는 자연스러운 음성 에이전트를 개발하는 데 있어 핵심적인 요소로 평가받는다.
이번 발표에서 가장 눈에 띄는 기능은 정밀한 화자 분리 기술이다. 이는 오디오 스트림 내에서 서로 다른 화자를 식별하고 분류하는 과정으로, 회의나 인터뷰를 정확하게 기록하는 데 필수적이다. 또한 사용자가 특정 기술 용어나 이름을 미리 입력하여 정확도를 높일 수 있는 컨텍스트 바이어싱 기능을 지원한다. 이를 통해 범용 전사 서비스의 고질적인 한계였던 전문 용어나 고유 명사 오인식 문제를 효과적으로 해결했다.
무엇보다 Mistral AI는 Voxtral Realtime을 Apache 2.0 라이선스 하에 오픈 가중치 형태로 공개하는 파격적인 행보를 보였다. 약 40억 개의 파라미터 규모를 갖춘 이 모델은 에지 기기에서의 로컬 추론에 최적화되어 있어, 민감한 기업 데이터를 다루는 환경에 적합한 개인정보 보호 중심의 솔루션을 제공한다. 결과적으로 낮은 단어 오류율과 파격적인 가격 정책을 앞세운 Mistral AI는 음성 인식 시장의 기존 거물들을 여러 벤치마크에서 정조준하며 강력한 도전에 나서고 있다.