이 기사의 핵심 내용은?

연구진은 AI가 텍스트를 이미지로 처리할 때와 토큰으로 처리할 때 발생하는 심각한 '모달리티 간격'을 확인했다. 글꼴과 해상도의 변화는 시각적 텍스트 인식 정확도를 최대 47%포인트까지 떨어뜨릴 수 있다. 새로운 자기 증류 기술을 통해 이미지 기반 수학 추론 정확도를 30.71%에서 92% 이상으로 끌어올렸다.

픽셀로 읽는 AI의 한계, '모달리티 간격'이 성패 가른다

•연구진은 AI가 텍스트를 이미지로 처리할 때와 토큰으로 처리할 때 발생하는 심각한 '모달리티 간격'을 확인했다.
•글꼴과 해상도의 변화는 시각적 텍스트 인식 정확도를 최대 47%포인트까지 떨어뜨릴 수 있다.
•새로운 자기 증류 기술을 통해 이미지 기반 수학 추론 정확도를 30.71%에서 92% 이상으로 끌어올렸다.

멀티모달 거대언어모델(MLLM)은 시각 데이터를 해석하는 능력으로 주목받고 있지만, 정보 처리 방식에는 근본적인 차이가 존재한다. 텍스트를 디지털 토큰이 아닌 스크린샷이나 스캔 문서와 같은 원시 픽셀로 제시할 경우 모델의 성능이 급격히 저하되기 때문이다. 이러한 현상을 '모달리티 간격'이라 부르며, 이는 가장 진보된 시스템조차 시각적 지각과 논리적 분석 사이의 간극을 메우는 데 어려움을 겪고 있음을 보여준다.

다양한 벤치마크를 통해 주요 7개 MLLM을 체계적으로 평가한 결과, 이러한 간격은 형식 변화에 매우 민감한 것으로 나타났다. 단순히 글꼴을 바꾸거나 이미지 해상도를 조절하는 것만으로도 정확도가 최대 47%포인트까지 요동쳤다. 특히 모델이 기저의 지식은 유지하면서도 시각적 입력을 해석해야 할 때 '추론 붕괴'를 겪는다는 점이 확인됐다. 이는 지능 자체가 부족해서가 아니라, 초기 '읽기' 단계의 실패가 이후의 논리적 단계를 방해하기 때문인 것으로 풀이된다.

이를 해결하기 위해 연구진은 모델이 자신의 최상위 성과로부터 학습하는 자기 증류 기법을 도입했다. 모델이 텍스트 기반으로 생성한 논리적 추론 과정과 이에 대응하는 이미지 입력을 함께 학습시킨 결과, 입력 형식에 관계없이 논리적 흐름을 유지하도록 가르치는 데 성공했다. 실제로 GSM8K 수학 벤치마크에서 이 방식을 적용하자 이미지 모드의 정확도가 기존 30% 수준에서 92% 이상으로 급등했다. 이러한 돌파구는 차세대 AI가 시각 및 텍스트 데이터를 더욱 대등하게 통합하여 복잡한 문서 분석의 신뢰도를 높일 것임을 시사한다.

여러 가지 정보를 동시에 처리하는 인공지능(멀티모달 AI)은 사진과 영상을 아주 잘 이해하기로 유명해요. 하지만 정보를 받아들이는 방식에 따라 큰 실수를 하기도 해요. 우리가 컴퓨터에 직접 타이핑한 글자(토큰)를 보여줄 때는 잘 이해하지만, 글자가 적힌 화면을 캡처한 사진(픽셀)을 보여주면 실력이 갑자기 나빠져요. 이렇게 진짜 글자와 사진 속 글자를 다르게 받아들이는 현상을 정보 처리 방식의 차이(모달리티 갭)라고 불러요.

과학자들이 유명한 일곱 종류의 인공지능을 조사해 보니, 글씨체나 사진의 선명도가 조금만 바뀌어도 정답을 맞히는 실력이 무려 47%나 차이가 났어요. 인공지능이 원래 지식이 부족해서 그런 게 아니에요. 첫 단계인 ‘사진 속 글자 읽기’에서 실수하니까, 그 뒤에 이어지는 생각들이 엉망이 되는 사고력의 붕괴(추론 붕괴)가 일어나는 거예요. 마치 첫 단추를 잘못 끼우면 나머지 단추들도 다 어긋나는 것과 비슷해요.

이 문제를 해결하기 위해 연구원들은 인공지능이 스스로 가르치는 방식(셀프 디스틸레이션)을 만들었어요. 인공지능이 디지털 글자로 문제를 풀었을 때의 정확한 생각 과정을 사진 속 글자를 볼 때도 똑같이 따라 하도록 훈련시킨 거예요. 그 결과, 수학 문제 풀기 테스트(GSM8K)에서 겨우 30%였던 정답률이 92%까지 엄청나게 올랐어요. 이제 미래의 인공지능은 어떤 복잡한 서류 사진을 보여줘도 척척 읽어내고 정확하게 분석할 수 있게 될 거예요.

픽셀로 읽는 AI의 한계, '모달리티 간격'이 성패 가른다

인공지능도 ‘글자가 적힌 사진’은 읽기 어려워해요!

태그