이 기사의 핵심 내용은?

NVIDIA가 자율 에이전트의 처리량을 5배 향상시킨 1,200억 매개변수 규모의 하이브리드 모델 'Nemotron 3 Super'를 출시했다. Mamba와 Transformer 레이어에 Latent MoE를 결합한 새로운 하이브리드 아키텍처를 통해 연산 비용을 획기적으로 절감했다. 100만 토큰의 컨텍스트 창과 오픈 가중치를 특징으로 하며, NVIDIA Blackwell 하드웨어 플랫폼에 최적화되었다.

NVIDIA, 고성능 에이전트 AI용 'Nemotron 3 Super' 공개

•NVIDIA가 자율 에이전트의 처리량을 5배 향상시킨 1,200억 매개변수 규모의 하이브리드 모델 'Nemotron 3 Super'를 출시했다.
•Mamba와 Transformer 레이어에 Latent MoE를 결합한 새로운 하이브리드 아키텍처를 통해 연산 비용을 획기적으로 절감했다.
•100만 토큰의 컨텍스트 창과 오픈 가중치를 특징으로 하며, NVIDIA Blackwell 하드웨어 플랫폼에 최적화되었다.

•엔비디아가 스스로 복잡한 일을 척척 해내는 똑똑한 AI 모델인 '네모트론 3 슈퍼'를 발표했어요.
•이 AI는 엄청나게 많은 정보를 한꺼번에 기억할 수 있고, 필요한 부분만 골라 사용하여 전기를 아끼고 속도도 훨씬 빨라요.
•누구나 이 기술을 가져다 쓸 수 있게 공개해서, 보안이나 경제 분석 같은 어려운 문제도 AI가 빠르게 도와줄 수 있게 되었어요.

NVIDIA가 차세대 자율형 AI 에이전트를 구동하기 위해 설계된 1,200억 매개변수 규모의 오픈 모델, Nemotron 3 Super를 공개했다. 최근 기업들이 단순한 챗봇을 넘어 복잡한 멀티 에이전트 시스템으로 전환하면서, 에이전트 간 주고받는 방대한 데이터로 인해 성능이 저하되는 '문맥 폭발(context explosion)' 현상이 주요 과제로 부상했다. Nemotron 3 Super는 100만 토큰에 달하는 방대한 컨텍스트 창을 활용해 이 문제를 해결한다. 이는 두꺼운 소설 여러 권 분량의 정보를 원래의 목표를 놓치지 않고 기억할 수 있는 수준이다.

이 모델의 높은 효율성은 두 가지 서로 다른 신경망 설계를 결합한 정교한 하이브리드 아키텍처에서 비롯된다. 긴 데이터 시퀀스를 처리하는 데 매우 효율적인 Mamba 레이어와 복잡한 작업에 필요한 깊은 추론 능력을 제공하는 기존 Transformer 레이어를 함께 도입했다. 특히 Mixture-of-Experts (MoE) 방식을 채택하여 전체 매개변수는 1,200억 개에 달하지만, 실제 응답 시에는 120억 개의 매개변수만 활성화된다. 그 결과 각 응답에 필요한 에너지와 컴퓨팅 성능을 획기적으로 낮출 수 있었다.

속도의 한계를 더욱 넓히기 위해 NVIDIA는 AI가 다음 단어를 하나씩 예측하는 대신 여러 단어를 동시에 추측하는 Multi-token prediction 기술을 도입했다. 신규 Blackwell 하드웨어에 최적화된 이 기술은 이전 세대보다 최대 4배 빠른 추론 속도를 구현한다. 또한 NVIDIA는 모델 가중치를 공개함으로써 개발자들이 사이버 보안이나 금융 분석 같은 전문 분야에서 고성능 에이전트를 구축할 수 있도록 지원하고 있다. 이를 통해 대규모 추론 모델에서 흔히 발생하는 연산 비용 부담, 즉 '생각의 대가(thinking tax)' 없이 정밀한 도구 활용이 가능해질 전망이다.

엔비디아가 스스로 알아서 일을 처리하는 'AI 비서(자율형 AI 에이전트)'를 위해 새로운 AI 모델인 '네모트론 3 슈퍼'를 공개했어요. 요즘 기업들은 단순히 대화만 하는 인공지능을 넘어, 복잡한 일을 스스로 해결하는 여러 명의 AI 시스템을 원해요. 하지만 처리해야 할 정보가 너무 많아지면 속도가 느려지는 문제(컨텍스트 폭발)가 생기곤 하죠. 이 새로운 AI는 아주 두꺼운 소설책 수십 권 분량의 정보(100만 토큰 문맥창)를 한꺼번에 읽고 기억할 수 있어서, 긴 업무도 중간에 까먹지 않고 똑똑하게 해낼 수 있습니다.

이 AI가 효율적인 이유는 두 가지 서로 다른 기술을 섞은 똑똑한 설계(하이브리드 아키텍처) 덕분이에요. 긴 정보를 빠르게 훑어보는 기술(맘바 레이어)과 깊고 신중하게 생각하는 기술(트랜스포머 레이어)을 하나로 합쳤거든요. 특히 '필요한 전문가만 그때그때 부르는 방식(잠재 혼합 전문가 모델, MoE)'을 사용해요. 전체 1,200억 개의 지식 주머니(파라미터) 중 딱 필요한 120억 개만 골라 사용하기 때문에, 전기를 훨씬 적게 쓰면서도 아주 빠르게 정답을 찾아낼 수 있답니다.

속도를 더 높이기 위해 다음 단어를 하나씩 맞히는 게 아니라, 여러 단어를 한꺼번에 예상해서 말하는 기술(멀티 토큰 예측)도 들어갔어요. 여기에 엔비디아의 최신 컴퓨터 부품(블랙웰 하드웨어)을 함께 사용하면 예전보다 최대 4배나 더 빨라집니다. 엔비디아는 이 AI의 핵심 설계도(모델 가중치)를 누구나 쓸 수 있게 공개했어요. 덕분에 프로그래머들은 사이버 보안이나 복잡한 금융 분석처럼 아주 정확한 계산이 필요한 분야에서도, AI가 오랫동안 고민하지 않고(추론 비용 절감) 바로바로 일할 수 있게 만들 수 있게 되었습니다.

NVIDIA, 고성능 에이전트 AI용 'Nemotron 3 Super' 공개

엔비디아, 책 수십 권을 한꺼번에 기억하고 5배 더 빨리 일하는 AI 비서 공개

태그