この記事の要点は？

NVIDIA GB300 NVL72は、長文コンテキストのDeepSeek推論においてGB200比で1.53倍のスループット向上を実現した。拡張された288GBのHBM3eメモリにより、128Kトークンのシーケンスにおいてデコードのバッチサイズが1.6倍に向上した。ハードウェア加速されたSoftmaxと最適化されたカーネルにより、最初のプロンプト処理の遅延が23%削減された。

Blackwell Ultra、DeepSeekの長文性能を大幅向上

•NVIDIA GB300 NVL72は、長文コンテキストのDeepSeek推論においてGB200比で1.53倍のスループット向上を実現した。
•拡張された288GBのHBM3eメモリにより、128Kトークンのシーケンスにおいてデコードのバッチサイズが1.6倍に向上した。
•ハードウェア加速されたSoftmaxと最適化されたカーネルにより、最初のプロンプト処理の遅延が23%削減された。

•NVIDIA GB300 NVL72は、長文コンテキストのDeepSeek推論においてGB200比で1.53倍のスループット向上を実現した。
•拡張された288GBのHBM3eメモリにより、128Kトークンのシーケンスにおいてデコードのバッチサイズが1.6倍に向上した。
•ハードウェア加速されたSoftmaxと最適化されたカーネルにより、最初のプロンプト処理の遅延が23%削減された。

NVIDIAとSGLangチームは、最新のBlackwell Ultra（GB300）プラットフォームにDeepSeek R1モデルを搭載し、長文コンテキストAIのパフォーマンスを飛躍的に向上させたと発表した。一度に最大128,000トークンという膨大なテキストブロックを処理するシステムを最適化することで、前世代と比較してスループットを53%向上させることに成功したのである。これは、AIが処理速度を落とさずに膨大な情報を同時に「記憶」する必要がある法的文書の分析や複雑なコーディング作業などの用途において、極めて重要な進展と言える。

この高速化の鍵は、GB300の拡張されたメモリと特殊なハードウェアコンポーネントにある。新しいチップは288GBの高速メモリ（HBM3e）を搭載しており、より多くのデータを即座に使用可能な状態で保持できる。これにより、AIモデルが非常に長い会話の中で次の単語を予測しようとする際に発生しがちな「メモリのボトルネック」を防いでいるのだ。さらに、チームはMulti-token Prediction（MTP）と呼ばれる手法を活用した。これは単語を一つずつではなく一度に複数予測する技術であり、システムの総容量を損なうことなく、個々のユーザーへの提供速度をほぼ2倍に引き上げた。

膨大なワークロードを効率的に管理するため、エンジニアたちはプロセスを「プリフィル」（プロンプトの読み取り）と「デコード」（回答の生成）の2段階に分割した。これらのタスクを複数のGPU間で調整するためにNVIDIA Dynamoと呼ばれる制御システムが導入されている。また、チップ内部で複雑な計算を処理する特殊関数ユニットの改良により、初期プロンプトの処理速度が最大23%向上した。その結果、Blackwell Ultraが次世代の深層推論AIモデルにとって、現在最も強力なインフラであることが証明されたのである。

NVIDIAとSGLangチームは、最新のBlackwell Ultra（GB300）プラットフォームにDeepSeek R1モデルを搭載し、長文コンテキストAIのパフォーマンスを飛躍的に向上させたと発表した。一度に最大128,000トークンという膨大なテキストブロックを処理するシステムを最適化することで、前世代と比較してスループットを53%向上させることに成功したのである。これは、AIが処理速度を落とさずに膨大な情報を同時に「記憶」する必要がある法的文書の分析や複雑なコーディング作業などの用途において、極めて重要な進展と言える。

この高速化の鍵は、GB300の拡張されたメモリと特殊なハードウェアコンポーネントにある。新しいチップは288GBの高速メモリ（HBM3e）を搭載しており、より多くのデータを即座に使用可能な状態で保持できる。これにより、AIモデルが非常に長い会話の中で次の単語を予測しようとする際に発生しがちな「メモリのボトルネック」を防いでいるのだ。さらに、チームはMulti-token Prediction（MTP）と呼ばれる手法を活用した。これは単語を一つずつではなく一度に複数予測する技術であり、システムの総容量を損なうことなく、個々のユーザーへの提供速度をほぼ2倍に引き上げた。

膨大なワークロードを効率的に管理するため、エンジニアたちはプロセスを「プリフィル」（プロンプトの読み取り）と「デコード」（回答の生成）の2段階に分割した。これらのタスクを複数のGPU間で調整するためにNVIDIA Dynamoと呼ばれる制御システムが導入されている。また、チップ内部で複雑な計算を処理する特殊関数ユニットの改良により、初期プロンプトの処理速度が最大23%向上した。その結果、Blackwell Ultraが次世代の深層推論AIモデルにとって、現在最も強力なインフラであることが証明されたのである。

Blackwell Ultra、DeepSeekの長文性能を大幅向上

タグ