SGLang、VLMを高速化するEPD分散技術を導入
2026年1月25日 (日)
- •SGLangにEPDアーキテクチャを導入し、画像エンコードと言語処理を分離。
- •エンコーダの水平スケーリングにより、マルチモーダルタスクのTTFTを6〜8倍削減。
- •埋め込みキャッシュとRDMA転送バックエンドの実装により、スループットを最適化。
- •**ビジョン言語モデル: **画像とテキストを同時に処理し、内容の理解や説明の生成を行うAIモデル。
- •**推論フレームワーク: **学習済みAIモデルを実際の環境で効率的に実行し、予測や生成を行うための基盤ソフトウェア。
LMSYS Orgは、Alibaba CloudおよびAntGroup SCTのエンジニアと協力し、SGLangフレームワーク内で「Encoder-Prefill-Decode (EPD)」分散構成をリリースした。
この斬新なアーキテクチャは、画像エンコーディングフェーズと言語のプリフィル・デコード段階を切り離すことで、ビジョン言語モデル(VLM)における重大なボトルネックを解消する。
従来、これらのコンポーネントをテンソル並列化で一括スケーリングすると、通信オーバーヘッドの増大や、言語モデル本体に比べた画像エンコーダのパラメータ数の少なさから、投資対効果が低下する傾向があった。 ビジョンエンコーダを独立したユニットとして水平スケーリング可能にすることで、EPDは複数画像の推論など、画像負荷の高いシナリオで劇的なパフォーマンス向上を実現する。
このシステムは、重複計算を排除するビジョン埋め込みキャッシュや、低遅延通信のためのMooncakeなどの高帯域転送メカニズムをサポートしている。
ベンチマークでは、この3層アプローチにより、標準的な共同配置構成と比較して初回トークン生成時間(TTFT)を最大8倍短縮し、リクエストスループットを2倍に向上させることが示された。
この進歩はマルチモーダルAIのモジュール型インフラへの重要な転換を意味し、計算負荷の高いビジョンタスクによる言語生成パイプラインの停滞を防ぐ。