アリババ、3秒で音声のクローンが可能に
2026年1月25日 (日)
- •アリババのQwenチームが、10言語に対応した多言語音声合成モデル群「Qwen3-TTS」をオープンソース化した。
- •わずか3秒の音声データで高精度なクローンが可能。自然言語による「しわがれた声」などの細かな音声設計にも対応する。
- •0.6Bおよび1.7Bの軽量モデルをApache 2.0ライセンスで公開。ローカル環境やブラウザでの実行に対応している。
アリババのQwenチームが、高精度な音声合成とクローン作成を可能にする新モデル群「Qwen3-TTS」を正式にオープンソース化した。
従来のツールとは一線を画し、わずか3秒のオーディオ入力で話者の特徴を再現する「3秒音声クローニング」を実現している。このモデルは10言語、計500万時間に及ぶ膨大なデータセットで学習されており、デュアルトラック・アーキテクチャの採用によってリアルタイムのストリーミング音声生成を可能にした。
最大の特徴は、説明文による制御機能だ。
「しわがれた声」や「元気な海賊」といったテキストプロンプトを通じて、音声を自由自在に「設計」できる。この高度な操作性は、音声をトークンのシーケンスとして扱う専用の大規模言語モデルフレームワークによって実現された。
0.6Bから1.7Bのパラメータ版がApache 2.0ライセンスで提供されており、一般的なハードウェアやブラウザから誰でも利用できる。
著名な開発者でありオープンソース推進派のサイモン・ウィリソン(Simon Willison)氏は、強力なツールへの参入障壁が劇的に下がっている点を強調している。
シンプルなCLIコマンドだけで高品質な音声生成が可能だ。Apple Siliconに最適化されたmlx-audioライブラリを活用すれば、開発者はモデルをローカルで実行できる。かつては最先端の研究室に限られていた洗練された音声クローン技術が、十分なビデオメモリさえあれば、学生やホビーユーザーのPCでも動かせる時代が到来した。