이 기사의 핵심 내용은?

NVIDIA 연구진이 데이터 없이 시각-언어 모델의 자가 진화를 구현하는 MM-Zero를 발표했다. 제안자, 코더, 해결사로 구성된 프레임워크가 시각 추론 과제를 생성하고 렌더링하며 문제를 해결한다. GRPO 기술을 도입해 인간의 이미지나 레이블 없이도 모델의 성능을 지속적으로 개선한다.

NVIDIA, 인간 데이터 없이 자가 학습하는 MM-Zero 공개

•NVIDIA 연구진이 데이터 없이 시각-언어 모델의 자가 진화를 구현하는 MM-Zero를 발표했다.
•제안자, 코더, 해결사로 구성된 프레임워크가 시각 추론 과제를 생성하고 렌더링하며 문제를 해결한다.
•GRPO 기술을 도입해 인간의 이미지나 레이블 없이도 모델의 성능을 지속적으로 개선한다.

기존 시각-언어 모델은 학습을 위해 방대한 양의 이미지와 텍스트 설명 데이터가 필수적이었다. 하지만 NVIDIA 연구진이 공개한 MM-Zero 프레임워크는 기존 시각 데이터가 전혀 없는 상태에서도 기초부터 스스로 진화할 수 있는 환경을 제공한다. 이는 AI가 인간의 데이터 큐레이션에 의존하지 않고 독자적인 학습 궤도에 오를 수 있음을 의미한다.

시스템은 정교한 멀티 역할 구조로 작동한다. 제안자가 추상적인 개념을 설정하면, 코더는 이를 Python이나 SVG 등 실행 가능한 코드로 변환해 이미지를 시각화한다. 이후 해결사가 해당 시각 자료를 바탕으로 추론 과제를 수행하며 지능을 고도화한다. 즉, AI가 스스로 '심상'을 구축하고 소통하며 지적 능력을 자가 배양하는 방식이다.

특히 이 과정에는 모델의 실행 성공도와 시각적 정확도에 따라 보상을 설계하는 GRPO 기술이 핵심적인 역할을 한다. 최소한의 시드 데이터조차 필요하지 않다는 점에서 MM-Zero는 진정한 자율 머신러닝 시대로의 전환점을 시사한다. 결과적으로 인간 데이터의 병목 현상을 극복하고 미래 AI 시스템의 멀티모달 역량을 무한히 확장할 수 있는 확장성 높은 경로를 확보하게 됐다.

보통 인공지능은 사람이 미리 준비한 수많은 사진과 설명을 보고 공부해야 해요. 하지만 엔비디아 연구진은 사진이나 자료가 하나도 없어도 처음부터 스스로 실력을 키우는 기술(MM-Zero)을 발표했어요. 마치 아무것도 없는 방에서 인공지능이 혼자 상상하며 배우는 것과 같아요.

이 시스템은 세 가지 역할을 나누어 스스로 공부해요. 먼저 어떤 것을 배울지 아이디어를 내는 역할(제안자, Proposer)이 주제를 정해요. 그다음 컴퓨터 코드로 그림을 그려내는 역할(코더, Coder)이 그 아이디어를 그림으로 만들어요. 마지막으로 이 그림을 보고 문제를 푸는 역할(해결사, Solver)이 퀴즈를 풀며 실력을 쌓아요. 인공지능이 자기 자신과 대화하며 '마음속 그림'을 그려 스스로 똑똑해지는 방식이에요.

이렇게 공부할 때는 정답을 잘 맞히고 그림을 정확히 그렸을 때 상을 주는 방식(집단 상대 정책 최적화, GRPO)을 사용해요. 예전에는 공부를 시작할 때 최소한 몇 장의 진짜 사진이 필요했지만, 이제는 인공지능이 완전히 혼자서 배울 수 있게 된 거예요(자율 기계 학습). 이제 사람은 귀찮게 자료를 모아주지 않아도 되고, 인공지능은 멈추지 않고 계속해서 성장할 수 있게 되었답니다.

NVIDIA, 인간 데이터 없이 자가 학습하는 MM-Zero 공개

사진 없이도 스스로 공부하는 똑똑한 인공지능, 엔비디아의 'MM-제로'

태그