이 기사의 핵심 내용은?

P-EAGLE은 단일 순전파에서 여러 드래프트 토큰을 생성하여 1.69배의 속도 향상을 달성했다. 해당 프레임워크는 vLLM 서빙 엔진에 통합되어 GPT-OSS와 같은 모델의 추론 속도를 높여준다. 병렬 드래프팅을 통해 순차적 병목 현상을 제거함으로써 NVIDIA B200 하드웨어에서 처리량을 대폭 개선했다.

P-EAGLE, 병렬 투기적 디코딩으로 LLM 추론 속도 1.69배 가속

•P-EAGLE은 단일 순전파에서 여러 드래프트 토큰을 생성하여 1.69배의 속도 향상을 달성했다.
•해당 프레임워크는 vLLM 서빙 엔진에 통합되어 GPT-OSS와 같은 모델의 추론 속도를 높여준다.
•병렬 드래프팅을 통해 순차적 병목 현상을 제거함으로써 NVIDIA B200 하드웨어에서 처리량을 대폭 개선했다.

거대언어모델(LLM) 추론은 대개 텍스트를 한 번에 한 토큰씩 생성하기 때문에 속도 면에서 한계를 보이는 경우가 많다. 투기적 디코딩은 이러한 문제를 해결하기 위해 상대적으로 가벼운 '드래프터(drafter)' 모델이 여러 토큰을 한꺼번에 예측하고, 이후 더 큰 '타겟(target)' 모델이 이를 단일 단계에서 검증하는 방식을 사용한다.

하지만 EAGLE과 같은 기존 방식은 자기회귀 디코딩을 따르기 때문에 드래프터가 여전히 순차적으로 작동하며, 이는 시퀀스가 길어질수록 숨겨진 병목 현상을 야기하는 원인이 된다. 이에 대응하여 개발된 P-EAGLE(Parallel-EAGLE)은 단일 순전파(forward pass)만으로 모든 드래프트 토큰을 동시에 생성함으로써 성능의 한계를 극복했으며, 결과적으로 예측에 소요되는 시간을 획기적으로 줄이는 데 성공했다.

연구진은 이를 구현하기 위해 미래 예측을 위한 플레이스홀더로 '마스크(mask)' 토큰을 활용하는 혁신적인 아키텍처를 도입했다. 이러한 플레이스홀더들은 모델 레이어를 통해 한꺼번에 처리되는데, 덕분에 시스템은 이전 토큰의 생성이 완료될 때까지 기다리지 않고도 앞선 내용을 미리 내다보고 예측할 수 있게 되었다.

이 획기적인 기술은 현재 AI 모델 서빙에 널리 쓰이는 오픈소스 도구인 vLLM 엔진에 정식 적용된 상태다. 실제로 NVIDIA의 강력한 B200 하드웨어에서 실시된 초기 테스트에 따르면, 코딩이나 멀티턴 대화처럼 긴 출력이 빈번한 복잡한 작업에서 상당한 처리량 이득을 얻은 것으로 나타났다. 사용자들은 현재 GPT-OSS 및 Qwen3-Coder용으로 공개된 P-EAGLE 헤드를 즉시 활용할 수 있으며, 이러한 효율적인 병렬 추론 기법으로의 전환은 향후 실시간 AI 상호작용을 더욱 원활하고 경제적으로 만들 전망이다.

인공지능이 질문에 대답하는 과정(추론)은 보통 단어 조각(토큰)을 하나씩 차례대로 만들기 때문에 시간이 조금 걸려요. 이를 해결하기 위해 '미리 짐작해서 대답하기(투기적 디코딩)'라는 방법이 쓰여요. 이건 보조 인공지능(드래프터 모델)이 다음에 올 말을 미리 예상하면, 진짜 똑똑한 메인 인공지능(타겟 모델)이 그게 맞는지 한꺼번에 확인하는 방식이에요.

기존의 방식(EAGLE)은 보조 인공지능조차 단어를 하나씩 순서대로 예상해야 했기 때문에 속도에 한계가 있었어요(자기회귀 방식). 하지만 'P-EAGLE(피-이글)'은 이 벽을 허물었어요. 여러 개의 단어 후보를 단 한 번에 동시에 만들어내서(병렬 처리), 다음 말을 짐작하는 데 드는 시간을 획기적으로 줄였답니다.

연구팀은 이 기술을 위해 '빈칸(마스크 토큰)'이라는 자리를 미리 만들어 두는 새로운 설계 방식을 도입했어요. 미래에 나올 단어 자리를 미리 찜해두고 한꺼번에 처리하기 때문에, 앞의 단어가 완성될 때까지 기다릴 필요 없이 앞질러서 생각할 수 있게 된 것이죠.

이 기술은 현재 인공지능을 실행하는 유명한 도구(vLLM)에 바로 적용되었어요. 성능이 아주 좋은 최신 컴퓨터 부품(NVIDIA B200)에서 시험해 보니, 코딩이나 긴 대화처럼 복잡하고 긴 글을 써야 할 때 한 번에 처리하는 양(처리량)이 크게 늘어났습니다.

이제 사람들은 이 기술이 적용된 다양한 인공지능 모델(GPT-OSS, Qwen3-Coder)을 즉시 사용할 수 있어요. 이번 발전 덕분에 앞으로 우리가 인공지능과 대화할 때 끊김 없이 더 부드럽게 대화할 수 있고, 인공지능을 운영하는 비용도 더 저렴해질 것으로 보여요.

P-EAGLE, 병렬 투기적 디코딩으로 LLM 추론 속도 1.69배 가속

한 번에 여러 단어를 척척! 인공지능의 대답 속도를 엄청나게 높여주는 'P-EAGLE' 기술

태그