SGLangがLLaDA 2.0を即時サポート、拡散型言語モデルの推論を大幅高速化
- •SGLangが拡散型言語モデル「LLaDA 2.0」への対応を発表し、画像生成と同様のプロセスでテキストを洗練させる新しい生成手法を導入した。
- •独自の「Chunked-Prefill」メカニズムの実装により、コアシステムを変更することなく拡散モデルの最適化と柔軟なカスタマイズを実現した。
- •ベンチマークで従来モデルの3.5倍以上となる秒間935トークンの高速推論を達成し、次世代AIの研究開発を加速させる。
Ant GroupのDeepXPUチームとSGLang開発チームが、推論最適化フレームワーク「SGLang」において拡散型大規模言語モデル(dLLM)の正式なサポートを開始したことを発表した。この戦略的な技術提携によって、中国人民大学とAnt Groupが共同で開発を手がけた最先端モデル「LLaDA 2.0」への「Day-0(即日)」サポートが実現した。LLaDA 2.0は、従来のGPTシリーズのような自己回帰(AR)型モデル、すなわち過去の単語列から次の単語を一つずつ逐次的に予測する手法とは一線を画す。画像生成AIがノイズから画像を生成するように、拡散プロセスを用いてテキスト全体を反復的に洗練・構築していくのが特徴である。この独自のアプローチにより、従来型よりも深いデータ構造の理解と、特に小規模なバッチサイズにおける卓越した推論速度の両立に成功している。
LLaDA 2.0のように複雑な拡散プロセスを伴う大規模モデルを実用化する際、標準的な推論エンジンでは計算リソースの管理や効率性の面で大きな壁に突き当たることが多い。SGLangはこの課題を解決するため、独自の「Chunked-Prefill(チャンク化プリフィル)」メカニズムを導入し、既存のコアアーキテクチャを損なうことなく拡散モデルを効率的に統合する手法を確立した。この技術的工夫により、dLLMはSGLangが提供する高度なメモリ管理やスケジューリングといった最適化機能の恩恵をそのまま受けることが可能となった。同時に、開発者が特定のニーズに合わせて拡散デコードアルゴリズムを自由にカスタマイズできる柔軟性も保持しており、非順次的テキスト生成の研究開発を加速させる強力なツールとなっている。
実際のベンチマークテストにおいて、今回の統合がもたらすパフォーマンス向上は極めて顕著である。1000億パラメータを持つ「LLaDA 2.0-flash-CAP (100B)」モデルを用いた測定では、秒間935トークンという圧倒的な処理能力を実証した。これは、1200億パラメータの「gpt-oss-120B」が記録した秒間263トークンと比較して約3.5倍に相当する驚異的な数値である。SGLangが誇る高い安定性と、強化学習(RL)に関連するエコシステムとの優れた親和性は、これらの巨大かつ複雑なモデルを安定運用する上で理想的な環境を提供する。本アップデートは、拡散型言語モデルの実社会における応用範囲を劇的に広げるだけでなく、次世代AIの限界を追求する世界各国の研究チームにとって、開発サイクルを劇的に短縮するマイルストーンとなるだろう。
AI技術の進化において、効率的な推論基盤の確保はモデル自体の性能向上と同じほど重要である。SGLangによるLLaDA 2.0のサポートは、単なる一機能の追加に留まらず、言語モデルの構造そのものを再定義しようとする動きを後押しするものである。今後、このエコシステムを通じて、より複雑な推論タスクや創造的なコンテンツ生成において、拡散型モデルが自己回帰型モデルと補完し合い、あるいはそれを凌駕する場面が増えていくことが予想される。研究者やエンジニアは、SGLangという安定したプラットフォームを通じて、これまでにないスピードで革新的なAIアプリケーションを構築できる環境を手に入れたと言えるだろう。