マイクロソフトが超高速音声認識モデル「MAI-Transcribe-1」を発表
2026年4月3日 (金)
- •マイクロソフトがAzure Speech API向けに音声文字起こしモデル「MAI-Transcribe-1」をリリース
- •単語誤り率3.0%を達成し、業界ベンチマークで4位にランクイン
- •リアルタイムの69倍という圧倒的な処理速度で業界トップクラスの性能を実現
マイクロソフトは、生成AIポートフォリオを拡充し、高性能な音声からテキストへの変換に特化した新モデル「MAI-Transcribe-1」をリリースした。このモデルは単語誤り率3.0%を記録し、業界標準である「Artificial Analysis」のリーダーボードで上位に位置している。複雑な音声であっても高い精度で文字起こしが可能な能力を備えていることが証明された。
精度の高さに加え、このシステムの最大の競合優位性は、リアルタイムの69倍という処理速度にある。この効率性は、会議や講義、インタビューなどの長時間アーカイブを数分ではなく、わずか数秒で処理できることを意味する。大規模な文字起こしワークフローを構築し、遅延コストを抑えたい開発者にとって重要な最適化手段となるだろう。
現在、MAI-Transcribe-1は日本語や英語、アラビア語を含む世界25言語に対応している。開発者はマイクロソフトのプラットフォーム「Foundry」を通じて今すぐモデルを利用可能だ。純粋な精度においては一部の専門特化型モデルに譲る場面もあるが、速度と対応言語の広さを兼ね備えた実用的なツールとして、現場での活用が期待される。