Mistralが高性能な音声AI「Voxtral」を公開
2026年4月6日 (月)
- •Mistralが40億パラメータのオープンウェイト音声生成モデル「Voxtral」を発表
- •9言語に対応し、人間のような自然な発話と超低遅延を実現
- •ゼロショット学習により、特定の声質を異なる言語に適用可能
Mistral AIが音声生成分野に参入した。同社が発表した「Voxtral」は、機械的な合成音と人間らしい豊かな表現の溝を埋めるべく設計されたオープンウェイトモデルだ。40億パラメータを擁するこのモデルは、単にテキストを読み上げるだけでなく、話し言葉特有の抑揚やリズム、感情の機微を精緻に捉えるよう設計されている。
開発者にとっての最大の利点は、その俊敏性にある。音声生成の開始まで約70ミリ秒という超低遅延を実現しており、カスタマーサポートや金融サービス、自動パーソナルアシスタントといったリアルタイム性が求められる環境に最適だ。さらに、ヒンディー語やオランダ語を含む9言語に対応し、ゼロショット学習により、異なる言語であっても対象の話し手のアクセントを維持したまま音声を生成できる。
内部構造にはトランスフォーマーをベースとした自己回帰型のフローマッチングアーキテクチャが採用されており、既存の「Ministral 3B」モデルが基盤となっている。モデルの重みを公開することで、Mistral AIはコミュニティがこの音声レイヤーを自らのスタックに統合・検証することを奨励している。これにより、高品質かつエンタープライズレベルの音声合成技術が広く普及する道が拓かれたと言える。