NVIDIA、音声AI「Nemotron 3」公開
- •NVIDIAが120億パラメータのオープンウェイツ音声モデル「Nemotron 3 VoiceChat」を公開
- •対話のダイナミクスと音声推論のバランスを最適化し、パレート境界における優位性を確立
- •オープンウェイツモデルとGeminiなどの商用モデルの間には、依然として大きな性能差が存在
NVIDIAは、120億のパラメータを誇る新型モデル「Nemotron 3 VoiceChat (V1)」を公開した。このモデルは、AIの知能レベルと人間同士のような滑らかな対話の隔たりを埋めるべく設計されている。多くのAIシステムがテキスト処理において優れた能力を発揮する一方、音声対音声(speech-to-speech)モデルは「対話のダイナミクス」という特有の課題に直面してきた。これは、発話のタイミングを察知したり、文脈を維持したまま自然な割り込みに対応したりといった、対話における微妙なリズムを指す概念である。
最新のベンチマークにおいて、Nemotron 3はオープンウェイツモデルにおける「パレート境界」のリーダーとしてその存在感を示した。これは、複雑な音声ロジックを理解する「音声推論」と、スムーズなやり取りを行う「対話のフロー」という、二つの相反する要素を極めて高い水準で両立させていることを意味する。推論に強いFreeze-Omniや対話性に長けたPersonaPlexなど、特定分野に特化したモデルは存在するが、両カテゴリーで同時にトップ3入りを果たしたオープンソースモデルはNemotron 3のみである。
しかし、こうした進展があるとはいえ、オープンソースの取り組みと商用のクローズドなシステムとの間には、依然として圧倒的な性能差が横たわっている。例えば、音声推論テスト「Big Bench Audio」でのNemotron 3のスコアは29.2%であったが、Gemini 2.5 FlashやGrok Voice Agentといった商用モデルは90%を超えるスコアを叩き出している。オープンウェイツコミュニティが着実な歩みを見せる一方で、最も洗練された音声機能は依然として商用サービスの壁に守られているのが現状である。