Artificial AnalysisがSTT精度ベンチマークを刷新
2026年2月18日 (水)
- •Artificial Analysisが、独自の音声エージェント用データセット「AA-AgentTalk」を含むAA-WER v2.0を公開した。
- •VoxPopuliとEarnings22データセットの修正により、モデルの正解判定が改善され、単語誤り率(WER)が最大5.6%低下した。
- •ElevenLabs Scribe v2がWER 2.3%を記録し、GoogleのGemini 3 Proを上回りベンチマーク首位を獲得した。
Artificial Analysisは、現代のAI活用シーンを反映した音声文字起こし(STT)ベンチマーク・スイートの大幅な刷新版「AA-WER v2.0」を発表した。従来のベンチマークは議会録のようなフォーマルな録音に依存しがちであったが、新バージョンでは音声エージェントとの対話を模した独自データセット「AA-AgentTalk」を導入している。これは、企業がカスタマーサービスなどにAIを導入する際、構造化された公的な朗読とは異なる自然な発話パターンや多様なアクセントへの対応が不可欠となっている現状を反映したものだ。
今回のアップデートではデータの完全性も追求されており、VoxPopuliおよびEarnings22データセットのクリーンアップ済みトランスクリプトが公開された。モデル精度の基準となる正解テキストであるグラウンドトゥルースを手作業で修正したことにより、モデルが音声を正しく書き起こしているにもかかわらず、以前は誤りと判定されていたケースが解消された。この改良は、モデルの出力と元の音声を比較して書き起こしミスを追跡する標準指標である「単語誤り率(WER)」の顕著な低下につながっている。
性能評価の結果からは、特化型モデルが汎用AIに挑む競争の激しさが浮き彫りとなった。現在はElevenLabs Scribe v2が総合スコア2.3%を記録し、書き起こし精度において現在のSOTAとしての地位を確立している。また、今回のリリースにはオープンソースのテキスト正規化ツールも含まれており、「7:00pm」と「7pm」のような些細な表記の違いを無視することで、評価の焦点をスタイルの好みではなく純粋な言語的正確さに絞ることに成功した。