NVIDIA, 하이브리드 MoE 모델 Nemotron 3 Super 공개
- •NVIDIA가 멀티 에이전트 시스템을 위한 1,200억 개의 파라미터를 갖춘 하이브리드 MoE 모델인 Nemotron 3 Super를 출시했다.
- •이 모델은 100만 토큰의 컨텍스트 창과 Transformer-Mamba 하이브리드 아키텍처를 채택하여 기존 대비 5배 높은 처리량을 구현했다.
- •SGLang은 NVIDIA H200 및 B200 GPU에서 최적화된 배포가 가능하도록 출시 당일(Day-0) 추론 지원을 시작했다.
NVIDIA가 복잡한 멀티 에이전트 생태계를 구축하기 위해 설계된 1,200억 개의 파라미터 모델인 Nemotron 3 Super를 전격 공개했다. 이 모델은 거대한 단일 구조 대신 Mixture of Experts(MoE) 설계를 채택하여 추론 시 단 120억 개의 파라미터만 활성화한다. 이러한 구조적 선택 덕분에 일반적인 연산 비용의 일부만으로도 최상위급 추론 성능을 구현하며, 특히 대량의 토큰 생성이 필요한 에이전트 기반 워크플로우에 최적화된 성능을 제공한다.
기술적으로는 표준 Transformer 블록과 선형 확장성 및 효율성이 뛰어난 시퀀스 모델링 기법인 Mamba를 결합한 하이브리드 아키텍처를 도입했다. 이에 더해 NVIDIA는 Multi-Token Prediction(MTP) 기술을 통합하여 시스템이 여러 개의 미래 단어를 동시에 예측할 수 있도록 설계했다. 그 결과 텍스트 생성 중 발생하는 지연 시간이 크게 줄었으며, 100만 토큰에 달하는 방대한 컨텍스트 창을 통해 에이전트가 복잡한 다단계 계획 업무에서도 이전 상호작용의 맥락을 놓치지 않고 일관성을 유지할 수 있게 되었다.
한편 SGLang은 모델 출시와 동시에 H200 및 B200 GPU에서 즉시 배포할 수 있는 'Day-0' 추론 지원을 발표하며 효율적인 인프라 환경을 구축했다. NVIDIA는 이번 모델의 가중치와 레시피를 모두 공개함으로써 Nemotron 3 Super를 폐쇄형 모델들의 강력하고 투명한 대안으로 포지셔닝하고 있다. 특히 'Thinking Budget'을 통해 추론 깊이를 조절할 수 있는 유연성까지 갖추며, 자율형 AI 시스템을 위한 인프라가 점차 고도화되고 있음을 시사했다.