AWSで医療用音声認識モデルを最適化
- •AWSとNVIDIAが、専門的な医療文字起こしタスク向けにParakeet TDTモデルの微調整手法を実証した。
- •LLMによる合成データ生成を活用し、プライバシー保護と希少な医療用語の精度向上を両立させた。
- •Amazon EC2 P4dインスタンスの分散学習により、大規模な音声データセットの高速な収束を実現した。
医療分野のような専門領域において、高精度な音声認識(Speech-to-Text)システムを構築することは依然として困難な課題だ。複雑な専門用語に加え、予測不能な背景ノイズが介在するためである。汎用的なモデルでは、ラテン語由来の薬剤名や、騒がしい救急外来といった過酷な環境下で精度が著しく低下する傾向がある。
こうした課題を解決すべく、AWSはNVIDIAおよびAIヘルスケアスタートアップのHeidi(ハイディ)と共同で、Parakeet TDT 0.6B V2モデルの堅牢な微調整ワークフローを提示した。このモデルはToken-and-Duration Transducer(TDT)アーキテクチャを採用しており、発話内容とその時間的な長さを同時に予測することで、文字起こしの流れとタイムスタンプの正確性を高めている。高性能なAmazon EC2 P4dインスタンスにデプロイすることで、開発者は数百時間分もの音声をわずか数時間で処理することが可能だ。
さらに、高品質な医療用学習データの不足を解消するため、チームは合成データの生成手法を導入した。大規模言語モデル(LLM)を用いてリアルな臨床現場の台本を作成し、それを多様なアクセントや模擬的な院内ノイズを加えた音声に変換するアプローチである。これにより、患者のプライバシー問題を回避しつつ、汎用モデルが誤解しやすい希少な医療用語を重点的に学習させることが可能となった。
技術スタックには、メモリ効率を最適化するDeepSpeedやNVIDIA NeMoフレームワークなどのオープンソースツールが統合されている。このアプローチにより、システムを実験段階の微調整から本番環境へのデプロイまでシームレスに拡張でき、多忙な臨床医に対して信頼性の高いドキュメンテーション支援を提供することが可能となる。