멀티모달 AI 훈련 비용 26% 절감하는 새로운 정렬 기술
- •고정 프레임 이론을 통해 '모달리티 간격(Modality Gap)'이 무작위 노이즈가 아닌 복잡한 기하학적 패턴임을 입증함
- •ReAlign 기술은 추가 훈련 없이도 텍스트 표현을 이미지 데이터 분포에 맞추는 통계적 매핑 기법을 도입함
- •ReVision 패러다임은 짝을 이루지 않은 대량의 텍스트를 활용해 MLLM 훈련 비용을 획기적으로 절감함
이미지와 텍스트를 동시에 처리하는 현대 AI 모델은 종종 '모달리티 간격(Modality Gap)'이라는 고질적인 문제에 직면한다. 이는 고양이 사진과 '고양이'라는 단어의 디지털 지문인 임베딩이 서로 같은 벡터 공간에 머무르지 못하고 지속적으로 어긋나는 현상을 의미한다. 그동안 많은 연구자가 이러한 간격을 단순히 처리하기 힘든 무작위 노이즈로 간주해 왔다. 하지만 이번에 발표된 '고정 프레임 모달리티 간격 이론'은 이 간격이 실제로는 예측 가능한 기하학적 패턴을 따르며, 안정적인 편향과 방향에 따른 변동성을 가지고 있음을 수학적으로 증명해 냈다.
이러한 발견을 바탕으로 연구진은 별도의 추가 훈련이 필요 없는 'ReAlign' 전략을 개발했다. ReAlign은 통계학적 기법을 활용해 텍스트 데이터의 형태가 이미지 데이터의 분포와 완벽하게 일치하도록 데이터의 위치를 미세하게 조정하는 방식이다. 특히 데이터 클러스터의 기준점(앵커)과 에너지 수준, 중심점을 정밀하게 정렬함으로써 막대한 컴퓨팅 자원을 소모하지 않고도 기하학적 오류를 바로잡는다. 이 과정을 거치면 모델은 텍스트와 이미지를 서로 번역해야 할 별개의 언어가 아닌, 본질적으로 연결된 관계로 인식하는 임베딩 정렬 상태에 도달하게 된다.
한 걸음 더 나아가 'ReVision' 훈련 패러다임은 멀티모달 대규모 언어 모델 (MLLM)이 이미지를 학습하기 전, 짝을 이루지 않은 방대한 텍스트 데이터로부터 먼저 지식을 습득할 수 있도록 설계되었다. 이는 연구자들이 더 이상 값비싼 수작업 레이블링이 포함된 이미지-텍스트 데이터 쌍에만 전적으로 의존하지 않아도 됨을 시사한다. 실제로 성능 테스트 결과, 이 방식은 기존 방식 대비 74%의 비용(26% 절감)만으로도 더 뛰어난 성능을 기록했다. 결과적으로 정밀한 기하학적 정렬이 단순히 데이터의 양을 늘리는 것보다 효과적일 수 있으며, 동시에 AI의 고질적인 문제인 할루시네이션 현상까지 줄일 수 있음을 입증한 것이다.