SGLang、100万トークン対応のパイプライン並列化を実現
- •LMSYSが、100万トークン超の文脈処理とノード間拡張を可能にするSGLangの最適化技術を公開した。
- •DeepSeek-V3.1において、従来手法と比較し3.31倍高いプリフィル・スループットを達成した。
- •Dynamic Chunkingと非同期P2P通信により、レイテンシを67.9%削減することに成功した。
LMSYS ORGは、LLM向けの高性能な推論フレームワークであるSGLangのメジャーアップデートを公開した。本実装の主導的開発者であるShangming Cai(シャンミン・ツァイ)は、モデルが数兆パラメータ規模に達し文脈窓が広がり続ける中で、既存のハードウェア戦略は限界を迎えつつあると説明する。今回のアップデートの核となるパイプライン並列化は、モデルの各層を異なるGPUに分割配置する技術だ。この手法により、マルチノード環境で課題となる通信負荷を軽減し、100万トークンを超える膨大なプロンプトの処理を円滑化する。 データ待機中にGPUがアイドル状態になる「パイプラインバブル」を解決するため、SGLangはChunked Pipeline Parallelismを採用した。この手法は、長い入力シーケンスを小さなチャンクに分割する。プロンプト全体の処理を待つことなく、GPUが次のデータ処理に即座に取り掛かれるようにすることで、ハードウェアの稼働率を最大化し、ユーザーが応答を受け取るまでの待ち時間であるTTFTを短縮する。 さらに、システムには非同期P2P通信とDynamic Chunkingも組み込まれた。これらの機能により、計算と並行してチップ間のデータ転送が可能になり、アイドル時間を最小化する。DeepSeek-V3.1モデルを用いた実証テストでは、この新アーキテクチャが従来手法を30%上回る性能を記録し、大規模クラスターにおいてモデルの層ごとに作業を分割する有効性が証明された。 これらのツールをオープンソースとして公開することで、LMSYSは開発者に対し、独自の構成を必要とせずに超長文シーケンスを扱うためのスケーラブルな道筋を提示した。このインフラストラクチャは、書籍一冊分や大規模なコードベースを一度に処理する必要がある次世代AIエージェントにとって不可欠なものとなる。