픽셀로 읽는 AI의 한계, '모달리티 간격'이 성패 가른다
- •연구진은 AI가 텍스트를 이미지로 처리할 때와 토큰으로 처리할 때 발생하는 심각한 '모달리티 간격'을 확인했다.
- •글꼴과 해상도의 변화는 시각적 텍스트 인식 정확도를 최대 47%포인트까지 떨어뜨릴 수 있다.
- •새로운 자기 증류 기술을 통해 이미지 기반 수학 추론 정확도를 30.71%에서 92% 이상으로 끌어올렸다.
멀티모달 거대언어모델(MLLM)은 시각 데이터를 해석하는 능력으로 주목받고 있지만, 정보 처리 방식에는 근본적인 차이가 존재한다. 텍스트를 디지털 토큰이 아닌 스크린샷이나 스캔 문서와 같은 원시 픽셀로 제시할 경우 모델의 성능이 급격히 저하되기 때문이다. 이러한 현상을 '모달리티 간격'이라 부르며, 이는 가장 진보된 시스템조차 시각적 지각과 논리적 분석 사이의 간극을 메우는 데 어려움을 겪고 있음을 보여준다.
다양한 벤치마크를 통해 주요 7개 MLLM을 체계적으로 평가한 결과, 이러한 간격은 형식 변화에 매우 민감한 것으로 나타났다. 단순히 글꼴을 바꾸거나 이미지 해상도를 조절하는 것만으로도 정확도가 최대 47%포인트까지 요동쳤다. 특히 모델이 기저의 지식은 유지하면서도 시각적 입력을 해석해야 할 때 '추론 붕괴'를 겪는다는 점이 확인됐다. 이는 지능 자체가 부족해서가 아니라, 초기 '읽기' 단계의 실패가 이후의 논리적 단계를 방해하기 때문인 것으로 풀이된다.
이를 해결하기 위해 연구진은 모델이 자신의 최상위 성과로부터 학습하는 자기 증류 기법을 도입했다. 모델이 텍스트 기반으로 생성한 논리적 추론 과정과 이에 대응하는 이미지 입력을 함께 학습시킨 결과, 입력 형식에 관계없이 논리적 흐름을 유지하도록 가르치는 데 성공했다. 실제로 GSM8K 수학 벤치마크에서 이 방식을 적용하자 이미지 모드의 정확도가 기존 30% 수준에서 92% 이상으로 급등했다. 이러한 돌파구는 차세대 AI가 시각 및 텍스트 데이터를 더욱 대등하게 통합하여 복잡한 문서 분석의 신뢰도를 높일 것임을 시사한다.