この記事の要点は？

SGLangがGB300 NVL72上で、前世代のHopper GPUと比較して25倍の推論高速化を達成した。 Blackwell UltraのNVFP4精度と最新メモリの最適化により、推論モデルの遅延を大幅に削減している。 NVIDIAとの連携によるカーネル改良で、GB200システムにおいても8倍の性能向上を実現した。

NVIDIAとSGLang、AI推論速度を25倍に向上

•SGLangがGB300 NVL72上で、前世代のHopper GPUと比較して25倍の推論高速化を達成した。
•Blackwell UltraのNVFP4精度と最新メモリの最適化により、推論モデルの遅延を大幅に削減している。
•NVIDIAとの連携によるカーネル改良で、GB200システムにおいても8倍の性能向上を実現した。

NVIDIAとSGLangの開発チームは、AIパフォーマンスにおける劇的な飛躍を遂げ、複雑な推論モデルにおいて25倍の高速化を実現した。最新のGB300 NVL72システム上でDeepSeek R1モデルを動作させることで、ソフトウェアとハードウェアの密接な統合が高性能AIの運用コストをいかに劇的に削減できるかを証明した。この突破口の中心にあるのはBlackwell Ultraアーキテクチャであり、超高速メモリであるHBM3eを搭載することで、現代のAIモデルが求める膨大な計算要求に応える容量を確保している。

核となる革新の一つは、NVFP4と呼ばれる新しいデータフォーマットの採用である。このフォーマットは、精度を損なうことなくモデルが意思決定に用いる「重み」のサイズを縮小する。システム内を移動するデータ量を半減させることで、ハードウェアはより大規模なリクエストを同時に処理できるようになった。これは、タスクごとにネットワークの特定部分のみを活性化させて電力と時間を節約するMixture of Experts (MoE)モデルにおいて特に効果を発揮する。

さらに、GPUが計算を行いながらネットワーク内の他のチップへデータを送信する「演算と通信のオーバーラップ」技術も導入された。あるタスクの終了を待たずに次の工程を開始する高速な組立ラインのような仕組みにより、システム全体の効率が向上した。これらの成果により、開発者は最先端モデルを極めて低い遅延でデプロイ可能となり、AIとの対話がより瞬時かつ大規模運用においても低コストなものへと進化している。

NVIDIAとSGLangの開発チームは、AIパフォーマンスにおける劇的な飛躍を遂げ、複雑な推論モデルにおいて25倍の高速化を実現した。最新のGB300 NVL72システム上でDeepSeek R1モデルを動作させることで、ソフトウェアとハードウェアの密接な統合が高性能AIの運用コストをいかに劇的に削減できるかを証明した。この突破口の中心にあるのはBlackwell Ultraアーキテクチャであり、超高速メモリであるHBM3eを搭載することで、現代のAIモデルが求める膨大な計算要求に応える容量を確保している。

核となる革新の一つは、NVFP4と呼ばれる新しいデータフォーマットの採用である。このフォーマットは、精度を損なうことなくモデルが意思決定に用いる「重み」のサイズを縮小する。システム内を移動するデータ量を半減させることで、ハードウェアはより大規模なリクエストを同時に処理できるようになった。これは、タスクごとにネットワークの特定部分のみを活性化させて電力と時間を節約するMixture of Experts (MoE)モデルにおいて特に効果を発揮する。

さらに、GPUが計算を行いながらネットワーク内の他のチップへデータを送信する「演算と通信のオーバーラップ」技術も導入された。あるタスクの終了を待たずに次の工程を開始する高速な組立ラインのような仕組みにより、システム全体の効率が向上した。これらの成果により、開発者は最先端モデルを極めて低い遅延でデプロイ可能となり、AIとの対話がより瞬時かつ大規模運用においても低コストなものへと進化している。

NVIDIAとSGLang、AI推論速度を25倍に向上

タグ