NVIDIA Blackwell Ultra, DeepSeek 긴 문맥 성능 혁신
- •NVIDIA GB300 NVL72, 기존 모델 대비 긴 문맥 추론 처리량 1.53배 향상
- •288GB HBM3e 메모리 탑재로 128K 토큰 시퀀스의 배치 크기 1.6배 확장
- •하드웨어 가속 Softmax 및 커널 최적화로 초기 프롬프트 처리 지연 시간 23% 단축
NVIDIA와 SGLang 팀이 새로운 Blackwell Ultra (GB300) 플랫폼에 DeepSeek R1 모델을 배포하며 긴 문맥(Long-context) 처리 성능의 비약적인 도약을 이루어냈다. 특히 최대 128,000개 토큰에 달하는 방대한 텍스트 블록을 처리하는 방식을 최적화함으로써, 이전 세대 대비 처리량을 53%나 끌어올리는 데 성공했다. 이러한 발전은 AI가 속도 저하 없이 방대한 정보를 동시에 '기억'해야 하는 법률 문서 분석이나 복잡한 코딩 작업 등의 분야에서 핵심적인 전환점이 될 것으로 보인다.
이러한 속도 향상의 비결은 GB300의 확장된 메모리와 특화된 하드웨어 구성 요소에 있다. 해당 칩은 288GB의 고속 메모리(HBM3e)를 탑재하여 시스템이 즉각적으로 사용할 수 있는 데이터를 더 많이 확보하도록 설계됐다. 이를 통해 AI 모델이 긴 대화에서 다음 단어를 예측할 때 흔히 발생하는 '메모리 병목 현상'을 효과적으로 방지한다. 또한, 한 번에 여러 단어를 추측하는 Multi-Token Prediction (MTP) 기술을 적용해 전체 시스템 용량을 유지하면서도 개별 사용자의 체감 속도를 두 배 가까이 높였다.
엄청난 작업 부하를 관리하기 위해 엔지니어들은 프로세스를 프롬프트를 읽는 'Prefill'과 답변을 생성하는 'Decode'의 두 단계로 분리했다. 이 과정에서 NVIDIA Dynamo라는 제어 시스템을 활용해 여러 GPU 간의 작업을 효율적으로 조율했다. 실제로 칩 내부에서 복잡한 연산을 담당하는 특수 기능 유닛(Special Function Units)을 개선한 결과, 초기 프롬프트 처리 속도가 최대 23% 빨라졌다. 결과적으로 Blackwell Ultra는 차세대 심층 추론 AI 모델을 위한 가장 강력한 인프라임을 다시 한번 입증했다.