NVIDIA、高速AIエージェント向け「Nemotron 3 Super」をリリース
- •NVIDIAが1200億パラメータのハイブリッドモデル「Nemotron 3 Super」を発表。自律型エージェントの処理能力を5倍に向上させた。
- •MambaとTransformerを融合した新アーキテクチャとLatent MoEにより、計算コストを大幅に削減した。
- •100万トークンの広大なコンテキストウィンドウを備え、Blackwellハードウェアへの最適化と重みの公開が行われた。
NVIDIAは、次世代の自律型AIエージェントを支えるために設計された、1200億パラメータのオープンモデル「Nemotron 3 Super」を公開した。企業が単純なチャットボットから複雑なマルチエージェントシステムへと移行する中で、エージェント間で交換される膨大なデータがパフォーマンスを低下させる「コンテキスト爆発」が課題となっている。Nemotron 3 Superは100万トークンのコンテキストウィンドウを活用することで、この問題に対処した。これは分厚い小説数冊分に相当する膨大な情報を、本来の目的を見失うことなく記憶できることを意味している。
このモデルの高い効率性は、2つの異なるニューラルネットワーク設計を融合させた高度なハイブリッドアーキテクチャに由来する。具体的には、長いデータ列の処理に長けたMambaレイヤーと、複雑なタスクに必要な深い推論能力を提供する従来のTransformerレイヤーを組み合わせている。さらに「Mixture-of-Experts(混合エキスパート)」手法を採用したことで、総パラメータ数は1200億にのぼるものの、実際に稼働するのは一度につき120億パラメータのみとなり、各回答に必要なエネルギーと計算リソースを劇的に削減することに成功した。
さらなる高速化を実現するため、NVIDIAは「Multi-token prediction」を導入した。これはAIが次の単語を一つずつ予測するのではなく、複数の単語を同時に推測する技術である。最新のBlackwellハードウェアへの最適化と相まって、推論速度は前世代の最大4倍に達した。NVIDIAはモデルの重みをオープンに公開することで、サイバーセキュリティや財務分析といった専門分野における高精度なツール利用を支援する。これにより、大規模な推論モデルにありがちな「思考コスト(Thinking Tax)」を支払うことなく、高度なエージェントの構築が可能になるのだ。