この記事の要点は？

Q: この記事の要点は？

1回のフォワードパスで複数のドラフトトークンを生成し、1.69倍の高速化を実現。 推論エンジンvLLMに統合され、GPT-OSSなどのモデルで迅速なサービングが可能に。 並列ドラフトにより逐次処理の壁を打破し、NVIDIA B200上でスループットを大幅に向上。

1回のフォワードパスで複数のドラフトトークンを生成し、1.69倍の高速化を実現。推論エンジンvLLMに統合され、GPT-OSSなどのモデルで迅速なサービングが可能に。並列ドラフトにより逐次処理の壁を打破し、NVIDIA B200上でスループットを大幅に向上。

P-EAGLE、並列投機的デコーディングでLLM推論を高速化

•1回のフォワードパスで複数のドラフトトークンを生成し、1.69倍の高速化を実現。
•推論エンジンvLLMに統合され、GPT-OSSなどのモデルで迅速なサービングが可能に。
•並列ドラフトにより逐次処理の壁を打破し、NVIDIA B200上でスループットを大幅に向上。

大規模言語モデル（LLM）の推論は、1トークンずつ順番に生成するという特性上、実行速度が大きな課題となっている。この解決策として、軽量な「ドラフト」モデルが複数のトークンをあらかじめ予測し、それを「ターゲット」となる巨大なモデルが一括で検証する「投機的デコーディング」が注目を集めている手法だ。

従来のEAGLEなどの手法は「自己回帰的デコーディング」に基づいており、ドラフトモデル自体が逐次的に動作するため、シーケンスが長くなるにつれて隠れたボトルネックが生じていた。これに対し、P-EAGLE（Parallel-EAGLE）は、1回のフォワードパスですべてのドラフトトークンを同時に生成することで、この性能の限界を打破し、予測に要する時間を劇的に短縮することに成功した。

この仕組みを支えるのは、将来の予測のためのプレースホルダーとして「マスク」トークンを活用する新しいアーキテクチャである。これらのプレースホルダーがモデルの各層を同時に通過することで、システムは前のトークンの処理完了を待たずに先読みを行うことが可能になった。

この画期的なフレームワークは、AIモデルの実行に広く利用されているオープンソースの推論エンジン「vLLM」に既に実装されている。NVIDIAの最新鋭ハードウェアであるB200を用いた初期テストでは、特にコーディングやマルチターンの対話といった、長い出力が求められる複雑なタスクにおいて顕著なスループットの向上が確認された。

開発者は、GPT-OSSやQwen3-Coder向けに提供されている学習済みP-EAGLEヘッドをすぐに活用できる。この進歩は、推論の並列化という新たな潮流を象徴しており、リアルタイムなAI体験をよりスムーズかつ低コストで実現する鍵となるだろう。