P-EAGLE、並列投機的デコーディングでLLM推論を高速化
2026年3月13日 (金)
- •1回のフォワードパスで複数のドラフトトークンを生成し、1.69倍の高速化を実現。
- •推論エンジンvLLMに統合され、GPT-OSSなどのモデルで迅速なサービングが可能に。
- •並列ドラフトにより逐次処理の壁を打破し、NVIDIA B200上でスループットを大幅に向上。
大規模言語モデル(LLM)の推論は、1トークンずつ順番に生成するという特性上、実行速度が大きな課題となっている。この解決策として、軽量な「ドラフト」モデルが複数のトークンをあらかじめ予測し、それを「ターゲット」となる巨大なモデルが一括で検証する「投機的デコーディング」が注目を集めている手法だ。
従来のEAGLEなどの手法は「自己回帰的デコーディング」に基づいており、ドラフトモデル自体が逐次的に動作するため、シーケンスが長くなるにつれて隠れたボトルネックが生じていた。これに対し、P-EAGLE(Parallel-EAGLE)は、1回のフォワードパスですべてのドラフトトークンを同時に生成することで、この性能の限界を打破し、予測に要する時間を劇的に短縮することに成功した。
この仕組みを支えるのは、将来の予測のためのプレースホルダーとして「マスク」トークンを活用する新しいアーキテクチャである。これらのプレースホルダーがモデルの各層を同時に通過することで、システムは前のトークンの処理完了を待たずに先読みを行うことが可能になった。
この画期的なフレームワークは、AIモデルの実行に広く利用されているオープンソースの推論エンジン「vLLM」に既に実装されている。NVIDIAの最新鋭ハードウェアであるB200を用いた初期テストでは、特にコーディングやマルチターンの対話といった、長い出力が求められる複雑なタスクにおいて顕著なスループットの向上が確認された。
開発者は、GPT-OSSやQwen3-Coder向けに提供されている学習済みP-EAGLEヘッドをすぐに活用できる。この進歩は、推論の並列化という新たな潮流を象徴しており、リアルタイムなAI体験をよりスムーズかつ低コストで実現する鍵となるだろう。