P-EAGLE, 병렬 투기적 디코딩으로 LLM 추론 속도 1.69배 가속
- •P-EAGLE은 단일 순전파에서 여러 드래프트 토큰을 생성하여 1.69배의 속도 향상을 달성했다.
- •해당 프레임워크는 vLLM 서빙 엔진에 통합되어 GPT-OSS와 같은 모델의 추론 속도를 높여준다.
- •병렬 드래프팅을 통해 순차적 병목 현상을 제거함으로써 NVIDIA B200 하드웨어에서 처리량을 대폭 개선했다.
거대언어모델(LLM) 추론은 대개 텍스트를 한 번에 한 토큰씩 생성하기 때문에 속도 면에서 한계를 보이는 경우가 많다. 투기적 디코딩은 이러한 문제를 해결하기 위해 상대적으로 가벼운 '드래프터(drafter)' 모델이 여러 토큰을 한꺼번에 예측하고, 이후 더 큰 '타겟(target)' 모델이 이를 단일 단계에서 검증하는 방식을 사용한다.
하지만 EAGLE과 같은 기존 방식은 자기회귀 디코딩을 따르기 때문에 드래프터가 여전히 순차적으로 작동하며, 이는 시퀀스가 길어질수록 숨겨진 병목 현상을 야기하는 원인이 된다. 이에 대응하여 개발된 P-EAGLE(Parallel-EAGLE)은 단일 순전파(forward pass)만으로 모든 드래프트 토큰을 동시에 생성함으로써 성능의 한계를 극복했으며, 결과적으로 예측에 소요되는 시간을 획기적으로 줄이는 데 성공했다.
연구진은 이를 구현하기 위해 미래 예측을 위한 플레이스홀더로 '마스크(mask)' 토큰을 활용하는 혁신적인 아키텍처를 도입했다. 이러한 플레이스홀더들은 모델 레이어를 통해 한꺼번에 처리되는데, 덕분에 시스템은 이전 토큰의 생성이 완료될 때까지 기다리지 않고도 앞선 내용을 미리 내다보고 예측할 수 있게 되었다.
이 획기적인 기술은 현재 AI 모델 서빙에 널리 쓰이는 오픈소스 도구인 vLLM 엔진에 정식 적용된 상태다. 실제로 NVIDIA의 강력한 B200 하드웨어에서 실시된 초기 테스트에 따르면, 코딩이나 멀티턴 대화처럼 긴 출력이 빈번한 복잡한 작업에서 상당한 처리량 이득을 얻은 것으로 나타났다. 사용자들은 현재 GPT-OSS 및 Qwen3-Coder용으로 공개된 P-EAGLE 헤드를 즉시 활용할 수 있으며, 이러한 효율적인 병렬 추론 기법으로의 전환은 향후 실시간 AI 상호작용을 더욱 원활하고 경제적으로 만들 전망이다.