AI의 유동적 지능을 측정하는 새로운 GENIUS 벤치마크
- •GENIUS는 패턴 유도와 제약 조건 수행을 통해 모델의 생성형 유동 지능을 정밀하게 측정한다.
- •멀티모달 모델들의 성능 저하는 생성 능력 자체보다 맥락 이해력이 부족한 데서 기인한다는 사실이 밝혀졌다.
- •연구진은 모델의 추론 및 적응력을 개선하기 위해 별도의 재학습이 필요 없는 어텐션 개입 기법을 제안했다.
기존의 AI 벤치마크는 주로 모델이 학습 과정에서 습득한 지식이나 암기력을 평가하는 '결정적 지능(Crystallized Intelligence)'에 집중해 왔다. 하지만 실제 환경에서 필요한 지능은 이전에 본 적 없는 새로운 문제를 즉각적으로 해결하는 능력을 요구한다. 이에 따라 연구진은 생성형 유동 지능을 측정하기 위한 특화된 평가 체계인 GENIUS를 도입했다. 이 지표는 모델이 사전 데이터에 의존하지 않고, 단일 프롬프트 내에서 패턴을 유도하고 특정 제약 사항을 처리하며 새로운 정보에 얼마나 잘 적응하는지를 평가한다.
12개의 주요 멀티모달 모델을 대상으로 실험을 진행한 결과, 모델 간의 유의미한 성능 격차가 확인됐다. 흥미로운 점은 모델들이 고품질의 이미지나 텍스트를 생성하는 능력 자체에는 문제가 없었다는 사실이다. 즉, 내부의 생성 엔진은 정상적으로 작동했으나 주어진 맥락을 정확히 파악하는 '맥락 이해' 단계에서 한계를 보였다. 예를 들어 추상적인 은유를 시각화하거나 직관에 어긋나는 물리 법칙을 시뮬레이션하라는 요청을 받았을 때, 모델은 제시된 고유한 제약 조건을 따르기보다 학습 과정에서 익힌 일반적인 패턴으로 회귀하는 경향을 보였다.
이러한 이해력 결핍을 해결하기 위해 연구팀은 추가적인 재학습이 필요 없는 '어텐션 개입' 전략을 개발했다. 이 기술은 비용이 많이 드는 재학습 과정 없이 모델이 입력 데이터의 특정 부분에 집중하는 방식인 어텐션을 수정한다. 연구진은 모델이 특정 맥락적 단서에 더욱 집중하도록 강제함으로써 단순한 결과물 생성과 진정한 유동적 추론 사이의 간극을 좁히는 데 성공했다. 이러한 평가 표준의 변화는 AI 산업이 실시간으로 비판적이고 적응적인 사고를 수행할 수 있는 AI를 개발하도록 이끌 것으로 기대된다.