Mistral AI、音速の文字起こし「Voxtral」を発表
2026年2月4日 (水)
- •Mistral AIが、200msの超低レイテンシと最新の話者分離機能を備えた「Voxtral Transcribe 2」をリリースした。
- •Apache 2.0ライセンスのオープンウェイツで「Voxtral Realtime」を公開し、エッジデバイスでの効率的な動作を実現した。
- •13言語に対応し、GPT-4o miniやGemini 2.5 Flashに対して顕著なコスト優位性を持つ。
Mistral AIは、効率的なバッチ処理とライブ対話の両方に最適化された次世代モデルシリーズ「Voxtral Transcribe 2」を公開し、音声技術の基準を大幅に引き上げた。本シリーズには、大量のタスクを効率よく処理する「Voxtral Mini Transcribe V2」と、200ms未満という驚異的な低レイテンシを誇る「Voxtral Realtime」の2つのバージョンが含まれる。この超高速な応答速度は、会話の途切れを感じさせない、自然で滑らかな音声エージェントを開発する上で極めて重要である。
特に注目すべきは、音声データから複数の話者を識別してラベル付けする、高精度な話者分離機能の導入だ。これにより、会議やインタビューの正確な記録が容易になった。さらに、特定の専門用語や名前を事前に提示して認識精度を高める「コンテキスト・バイアス」機能にも対応している。その結果、業界特有の用語や固有の名詞も正確に捉えることが可能となり、従来の文字起こしサービスが抱えていた大きな課題を克服した。
加えて、Mistral AIは「Voxtral Realtime」をApache 2.0ライセンスのもと、オープンウェイツで公開した。40億(4B)というコンパクトなパラメータ数を持つこのモデルは、エッジデバイス上でのローカルな推論に最適化されており、機密性の高い企業データを取り扱う際のプライバシー保護にも寄与する。低い単語誤り率と競争力のある価格設定を武器に、同社は音声認識市場のベンチマークにおいて、既存の巨大企業に真っ向から挑んでいる。