NVIDIA, 인간 데이터 없이 자가 학습하는 MM-Zero 공개
2026년 3월 11일 (수)
- •NVIDIA 연구진이 데이터 없이 시각-언어 모델의 자가 진화를 구현하는 MM-Zero를 발표했다.
- •제안자, 코더, 해결사로 구성된 프레임워크가 시각 추론 과제를 생성하고 렌더링하며 문제를 해결한다.
- •GRPO 기술을 도입해 인간의 이미지나 레이블 없이도 모델의 성능을 지속적으로 개선한다.
기존 시각-언어 모델은 학습을 위해 방대한 양의 이미지와 텍스트 설명 데이터가 필수적이었다. 하지만 NVIDIA 연구진이 공개한 MM-Zero 프레임워크는 기존 시각 데이터가 전혀 없는 상태에서도 기초부터 스스로 진화할 수 있는 환경을 제공한다. 이는 AI가 인간의 데이터 큐레이션에 의존하지 않고 독자적인 학습 궤도에 오를 수 있음을 의미한다.
시스템은 정교한 멀티 역할 구조로 작동한다. 제안자가 추상적인 개념을 설정하면, 코더는 이를 Python이나 SVG 등 실행 가능한 코드로 변환해 이미지를 시각화한다. 이후 해결사가 해당 시각 자료를 바탕으로 추론 과제를 수행하며 지능을 고도화한다. 즉, AI가 스스로 '심상'을 구축하고 소통하며 지적 능력을 자가 배양하는 방식이다.
특히 이 과정에는 모델의 실행 성공도와 시각적 정확도에 따라 보상을 설계하는 GRPO 기술이 핵심적인 역할을 한다. 최소한의 시드 데이터조차 필요하지 않다는 점에서 MM-Zero는 진정한 자율 머신러닝 시대로의 전환점을 시사한다. 결과적으로 인간 데이터의 병목 현상을 극복하고 미래 AI 시스템의 멀티모달 역량을 무한히 확장할 수 있는 확장성 높은 경로를 확보하게 됐다.