Omni-Diffusion, 멀티모달 이해와 생성의 통합 실현
- •Omni-Diffusion은 마스크 기반 이산 확산 모델을 활용한 최초의 Any-to-Any 멀티모달 모델을 선보였다.
- •텍스트, 음성, 이미지를 단일 아키텍처 내에서 통합 처리하는 프레임워크를 구축했다.
- •이산 확산 모델은 주요 벤치마크에서 기존의 자기회귀 시스템을 능가하는 성능을 입증했다.
현재의 멀티모달 대규모 언어 모델들은 대개 다음에 올 정보를 예측하는 자기회귀 아키텍처에 의존하고 있다. 이러한 방식은 효과적이긴 하지만, 다양한 데이터를 처리할 때 효율성과 유연성 측면에서 한계를 드러내기도 한다. 이에 난징대학교(Nanjing University) 연구진은 기존의 표준에서 벗어난 새로운 프레임워크인 Omni-Diffusion을 공개했다. 이 모델은 마스크 기반의 이산 확산 모델을 활용해 텍스트, 이미지, 음성 등 여러 데이터 유형을 단일 모델 내에서 동시에 처리한다.
서로 다른 형식 사이에서 명령어 이해와 응답 생성의 균형을 맞추는 데 어려움을 겪는 기존 모델들과 달리, Omni-Diffusion은 멀티모달 토큰의 결합 분포를 포착하는 데 집중한다. 즉, 서로 다른 데이터 유형을 분리된 흐름이 아닌 하나의 연결된 전체로 취급하는 방식이다. 특히 통합된 마스크 기반 접근법을 통해 어떤 양식에서든 '빈칸 채우기'를 효과적으로 수행할 수 있으며, 결과적으로 어떤 입력 유형으로도 모든 출력 유형을 생성할 수 있는 복잡한 Any-to-Any 상호작용이 가능해졌다.
이러한 변화는 확산 모델이 미래 AI의 강력한 기반이 될 수 있다는 잠재력을 여실히 보여준다. 실제로 성능 테스트 결과, Omni-Diffusion은 여러 양식을 동시에 처리하는 기존 시스템들과 대등하거나 오히려 더 뛰어난 성능을 기록했다. 이는 순차적인 자기회귀 방식에서 이산 확산 모델로의 전환이 차세대 멀티모달 기반 모델의 성능을 획기적으로 높이는 열쇠가 될 수 있음을 시사한다.