NVIDIA Nemotron 3, 오픈 가중치 음성 AI의 새 기준 제시
- •NVIDIA가 120억 개의 매개변수를 갖춘 오픈 가중치 음성 모델 'Nemotron 3 VoiceChat'을 출시했다.
- •해당 모델은 대화 역학과 음성 추론의 균형을 성공적으로 조율하며 파레토 프런티어의 선두 자리에 올랐다.
- •다만 오픈 가중치 모델과 Gemini 등 주요 상용 모델 간의 성능 격차는 여전히 과제로 남아 있다.
NVIDIA가 지능과 인간 상호작용의 자연스러운 조화를 목표로 설계된 120억 매개변수 규모의 새로운 모델, Nemotron 3 VoiceChat (V1)을 공개했다. 기존의 많은 AI 시스템이 텍스트 처리에는 능숙하지만, 음성 기반 모델은 대화의 미묘한 리듬을 파악해야 하는 '대화 역학'이라는 고유한 과제에 직면해 왔다. 이는 대화의 맥락을 놓치지 않으면서도 언제 말을 시작해야 할지, 혹은 자연스러운 끼어들기에 어떻게 대응해야 할지를 결정하는 능력을 의미한다.
최근 벤치마크 결과에 따르면, Nemotron 3는 오픈 가중치 모델들 사이에서 '파레토 프런티어'의 선두주자로 떠올랐다. 이는 음성 추론(복잡한 오디오 로직 이해)과 대화의 흐름이라는 두 가지 상충하는 목표 사이에서 가장 최적의 균형점을 찾아냈음을 뜻한다. 실제로 Freeze-Omni가 추론에서, PersonaPlex가 역동성에서 각각 강점을 보이는 것과 달리, Nemotron 3는 오픈소스 옵션 중 유일하게 두 카테고리 모두에서 동시에 상위 3위 안에 이름을 올렸다.
다만 이러한 발전에도 불구하고, 오픈소스 진영과 폐쇄형 상용 시스템 사이에는 여전히 거대한 성능 격차가 존재한다. 예컨대 Nemotron 3는 'Big Bench Audio' 추론 테스트에서 29.2%를 기록한 반면, 구글의 Gemini 2.5 Flash나 Grok Voice Agent 같은 상용 모델들은 90% 이상의 높은 점수를 유지하고 있다. 이는 오픈 가중치 커뮤니티가 꾸준히 성장하고 있음에도 불구하고, 가장 정교한 음성 AI 기술은 여전히 유료 서비스의 장벽 뒤에 머물러 있다는 현실을 보여준다.