この記事の要点は？

LMSYSが、100万トークン超の文脈処理とノード間拡張を可能にするSGLangの最適化技術を公開した。 DeepSeek-V3.1において、従来手法と比較し3.31倍高いプリフィル・スループットを達成した。 Dynamic Chunkingと非同期P2P通信により、レイテンシを67.9%削減することに成功した。

SGLang、100万トークン対応のパイプライン並列化を実現

•LMSYSが、100万トークン超の文脈処理とノード間拡張を可能にするSGLangの最適化技術を公開した。
•DeepSeek-V3.1において、従来手法と比較し3.31倍高いプリフィル・スループットを達成した。
•Dynamic Chunkingと非同期P2P通信により、レイテンシを67.9%削減することに成功した。

LMSYS ORGは、LLM向けの高性能な推論フレームワークであるSGLangのメジャーアップデートを公開した。本実装の主導的開発者であるShangming Cai（シャンミン・ツァイ）は、モデルが数兆パラメータ規模に達し文脈窓が広がり続ける中で、既存のハードウェア戦略は限界を迎えつつあると説明する。今回のアップデートの核となるパイプライン並列化は、モデルの各層を異なるGPUに分割配置する技術だ。この手法により、マルチノード環境で課題となる通信負荷を軽減し、100万トークンを超える膨大なプロンプトの処理を円滑化する。データ待機中にGPUがアイドル状態になる「パイプラインバブル」を解決するため、SGLangはChunked Pipeline Parallelismを採用した。この手法は、長い入力シーケンスを小さなチャンクに分割する。プロンプト全体の処理を待つことなく、GPUが次のデータ処理に即座に取り掛かれるようにすることで、ハードウェアの稼働率を最大化し、ユーザーが応答を受け取るまでの待ち時間であるTTFTを短縮する。さらに、システムには非同期P2P通信とDynamic Chunkingも組み込まれた。これらの機能により、計算と並行してチップ間のデータ転送が可能になり、アイドル時間を最小化する。DeepSeek-V3.1モデルを用いた実証テストでは、この新アーキテクチャが従来手法を30%上回る性能を記録し、大規模クラスターにおいてモデルの層ごとに作業を分割する有効性が証明された。これらのツールをオープンソースとして公開することで、LMSYSは開発者に対し、独自の構成を必要とせずに超長文シーケンスを扱うためのスケーラブルな道筋を提示した。このインフラストラクチャは、書籍一冊分や大規模なコードベースを一度に処理する必要がある次世代AIエージェントにとって不可欠なものとなる。

SGLang、100万トークン対応のパイプライン並列化を実現

タグ