이미지 이해와 생성을 하나로, 혁신적인 Cheers 모델 등장
- •Cheers는 시각적 세부 사항과 의미 정보를 분리하여 멀티모달 이해와 이미지 생성 작업을 하나로 통합한다.
- •새로운 아키텍처를 통해 4배의 토큰 압축을 달성했으며, 낮은 학습 비용으로도 고해상도 처리를 효율적으로 수행한다.
- •GenEval 벤치마크에서 기존 훈련 예산의 20%만 사용하고도 대형 모델인 Tar-1.5B의 성능을 앞질렀다.
시각 정보를 '보고' 동시에 '창조'할 수 있는 단일 AI 모델을 개발하는 일은 오랫동안 업계의 난제로 남아 있었다. 이미지를 이해하기 위해서는 고차원의 의미 정보가 필요하지만, 이미지를 생성하기 위해서는 픽셀 단위의 미세한 세부 묘사가 필수적이기 때문이다. 이러한 두 가지 목표는 종종 동일한 신경망 내에서 충돌을 일으켰으며, 그 결과 두 기능을 동시에 최적화하는 데 많은 어려움이 따랐다.
새롭게 등장한 Cheers 모델은 패치 수준의 세부 정보와 의미론적 표현을 분리함으로써 이 문제를 해결했다. 특수한 비전 토크나이저와 계층적 Flow matching 헤드를 활용해 이미지를 훨씬 효율적으로 처리하는 방식이다. 이러한 디커플링 덕분에 모델은 이미지의 본질적인 의미를 안정적으로 파악하는 동시에, 게이트형 잔차(residual) 메커니즘으로 미세한 질감을 정밀하게 채워 넣어 고화질 시각물을 생성해낸다.
이번 연구에서 가장 인상적인 부분은 단연 효율성이다. Cheers는 이미지 데이터를 AI가 읽을 수 있는 단위로 변환하는 토큰 압축 과정에서 기존 방식보다 4배 높은 효율을 달성했다. 이에 따라 훨씬 적은 컴퓨팅 자원만으로도 고해상도 이미지를 능숙하게 다룰 수 있게 되었으며, 실제 테스트 결과 주요 산업 벤치마크에서 훨씬 거대한 모델인 Tar-1.5B와 대등하거나 이를 능가하는 성능을 입증했다.
무엇보다 주목할 점은 이러한 성과를 고급 멀티모달 시스템에 통상적으로 필요한 학습 비용의 단 20%만으로 달성했다는 사실이다. 단일 Transformer 내에서 텍스트 처리를 위한 자기회귀 디코딩과 이미지 생성을 위한 확산 디코딩을 통합한 Cheers는, 차세대 올인원 AI 어시스턴트를 구축하기 위한 확장 가능한 설계도를 제시하고 있다.