AWS와 NVIDIA, 의료 음성 인식 혁신을 위한 협업
- •AWS와 NVIDIA가 의료 전용 전사 작업을 위해 Parakeet TDT 모델의 미세조정 과정을 시연했다.
- •LLM을 활용한 합성 데이터 생성 기술을 통해 개인정보 보호 문제를 해결하고 저자원 언어의 정확도를 개선했다.
- •Amazon EC2 P4d 인스턴스를 활용한 분산 학습으로 대규모 오디오 데이터셋의 학습 수렴 속도를 극대화했다.
의료 분야는 복잡한 전문 용어와 예측하기 힘든 배경 소음이 존재하기 때문에 정확한 음성 인식 시스템을 구축하는 것이 매우 까다로운 과제로 남아 있다. 실제로 범용 모델들은 라틴어 기반의 약물 명칭이나 긴박한 응급실 환경의 소음을 마주했을 때 오류를 범하는 경우가 많다. 이에 따라 특정 도메인에 최적화된 모델의 필요성이 꾸준히 제기되어 왔다.
최근 AWS는 NVIDIA 및 AI 헬스케어 스타트업 하이디(Heidi)와 협력하여 Parakeet TDT 0.6B V2 모델을 미세조정하는 강력한 워크플로우를 공개했다. 이 모델은 단어와 발화 길이를 동시에 예측하여 전사 흐름과 타임스탬프의 정확도를 개선하는 Token-and-Duration Transducer 아키텍처를 채택하고 있다. 특히 고성능 Amazon EC2 P4d 인스턴스에 이를 배포함으로써 개발자들은 수백 시간 분량의 오디오 데이터를 단 몇 시간 만에 처리할 수 있게 되었다.
부족한 고품질 의료 학습 데이터 문제를 해결하기 위해 연구팀은 합성 데이터 생성 방식을 도입했다. 이는 대규모 언어 모델을 사용해 실제와 유사한 임상 스크립트를 작성한 뒤, 이를 다양한 억양과 병원 소음이 섞인 음성으로 변환하는 방식이다. 이러한 접근법은 환자의 개인정보 침해 우려를 원천적으로 해소하는 동시에, 일반 모델이 흔히 오해하는 희귀 의료 용어에 대한 학습을 집중적으로 강화한다.
전체 기술 스택에는 메모리 효율성을 극대화하는 DeepSpeed와 NVIDIA NeMo 프레임워크와 같은 오픈소스 도구가 통합되었다. 이와 같은 방식은 실험 단계의 미세조정부터 실제 서비스 배포까지 원활한 확장을 가능하게 하며, 결과적으로 의료진에게 더욱 신뢰할 수 있는 문서화 지원 기능을 제공한다. 무엇보다 이번 협업은 클라우드 인프라와 최신 AI 모델링의 결합이 실질적인 의료 현장의 문제를 어떻게 해결할 수 있는지를 잘 보여준다.