NVIDIA, 고성능 에이전트 AI용 'Nemotron 3 Super' 공개
- •NVIDIA가 자율 에이전트의 처리량을 5배 향상시킨 1,200억 매개변수 규모의 하이브리드 모델 'Nemotron 3 Super'를 출시했다.
- •Mamba와 Transformer 레이어에 Latent MoE를 결합한 새로운 하이브리드 아키텍처를 통해 연산 비용을 획기적으로 절감했다.
- •100만 토큰의 컨텍스트 창과 오픈 가중치를 특징으로 하며, NVIDIA Blackwell 하드웨어 플랫폼에 최적화되었다.
NVIDIA가 차세대 자율형 AI 에이전트를 구동하기 위해 설계된 1,200억 매개변수 규모의 오픈 모델, Nemotron 3 Super를 공개했다. 최근 기업들이 단순한 챗봇을 넘어 복잡한 멀티 에이전트 시스템으로 전환하면서, 에이전트 간 주고받는 방대한 데이터로 인해 성능이 저하되는 '문맥 폭발(context explosion)' 현상이 주요 과제로 부상했다. Nemotron 3 Super는 100만 토큰에 달하는 방대한 컨텍스트 창을 활용해 이 문제를 해결한다. 이는 두꺼운 소설 여러 권 분량의 정보를 원래의 목표를 놓치지 않고 기억할 수 있는 수준이다.
이 모델의 높은 효율성은 두 가지 서로 다른 신경망 설계를 결합한 정교한 하이브리드 아키텍처에서 비롯된다. 긴 데이터 시퀀스를 처리하는 데 매우 효율적인 Mamba 레이어와 복잡한 작업에 필요한 깊은 추론 능력을 제공하는 기존 Transformer 레이어를 함께 도입했다. 특히 Mixture-of-Experts (MoE) 방식을 채택하여 전체 매개변수는 1,200억 개에 달하지만, 실제 응답 시에는 120억 개의 매개변수만 활성화된다. 그 결과 각 응답에 필요한 에너지와 컴퓨팅 성능을 획기적으로 낮출 수 있었다.
속도의 한계를 더욱 넓히기 위해 NVIDIA는 AI가 다음 단어를 하나씩 예측하는 대신 여러 단어를 동시에 추측하는 Multi-token prediction 기술을 도입했다. 신규 Blackwell 하드웨어에 최적화된 이 기술은 이전 세대보다 최대 4배 빠른 추론 속도를 구현한다. 또한 NVIDIA는 모델 가중치를 공개함으로써 개발자들이 사이버 보안이나 금융 분석 같은 전문 분야에서 고성능 에이전트를 구축할 수 있도록 지원하고 있다. 이를 통해 대규모 추론 모델에서 흔히 발생하는 연산 비용 부담, 즉 '생각의 대가(thinking tax)' 없이 정밀한 도구 활용이 가능해질 전망이다.