Mistral、音速の文字起こし「Voxtral 2」を発表
2026年2月5日 (木)
- •Mistral AIが、オープンウェイツ形式とAPI形式の両方で利用可能な音声モデル「Voxtral Transcribe 2」をリリースした。
- •Hugging Faceで公開された「Voxtral-Mini-4B-Realtime-2602」は、Apache-2.0ライセンスの下で高度な文字起こし機能を提供する。
- •マネージドAPI版には、話者分離やコンテキスト・バイアス機能が含まれており、1分あたり0.003ドル(1時間あたり0.18ドル)という低価格で利用可能だ。
Mistral AIは、リアルタイム音声処理の分野で大きな飛躍を遂げた次世代文字起こしスイート「Voxtral Transcribe 2」を発表した。2025年の初期リリースをベースに開発された本作では、ローカル環境で実行可能なオープンウェイツ版と、エンタープライズ向けの堅牢なマネージドAPIという二段構えの戦略を採用している。これにより、開発者は自社ハードウェアによるデータの完全な主権維持か、Mistralの最適化されたクラウドインフラによる高い拡張性のどちらかを、用途に応じて選択できるようになった。
開発者にとって特に注目すべきは、オープンウェイツ版の「Voxtral-Mini-4B-Realtime-2602」だ。Apache 2.0ライセンスを採用しているため、カスタムアプリケーションやプライベートサーバーへの組み込みにおいて非常に高い柔軟性を誇る。初期のデモンストレーションでは、その圧倒的な低遅延性が示された。WebAssemblyやDjangoといった専門用語も、常時接続のクラウド環境を必要とせずに、ほぼリアルタイムで正確に書き起こすことが可能である。
一方、マネージド環境を好むユーザー向けには、Mistral APIを通じて「voxtral-mini-latest」モデルが提供される。このモデルには、録音内の複数の話し手を識別する「話者分離」や、特定の専門用語や固有名称をヒントとして与えることで認識精度を高める「コンテキスト・バイアス」などの洗練された機能が搭載された。1時間あたり0.18ドルという競争力のある価格設定により、Mistralは性能とコストパフォーマンスの両面で、既存の音声認識市場の主要プレイヤーを脅かす存在となるだろう。