구글, 차세대 멀티모달 모델 Gemini Embedding 2 공개
- •구글 딥마인드가 통합 미디어 처리를 지원하는 네이티브 멀티모달 모델 Gemini Embedding 2를 출시했다.
- •텍스트, 이미지, 오디오, 비디오 등 서로 다른 데이터를 하나의 공통된 의미 공간으로 연결한다.
- •Matryoshka Representation Learning을 도입해 성능과 저장 비용을 최적으로 조절할 수 있다.
구글이 텍스트, 이미지, 비디오, 오디오 및 문서를 하나의 통합된 임베딩 공간으로 매핑하여 데이터 형식 간의 경계를 허무는 혁신적인 모델인 Gemini Embedding 2를 공식 발표했다. 기존 시스템이 각 미디어 유형마다 별도의 모델을 요구했던 것과 달리, 이 네이티브 멀티모달 접근 방식은 100개 이상의 언어를 가로질러 데이터 간의 복잡한 관계를 정교하게 포착한다. 이러한 혁신은 고급 AI 파이프라인 구축을 대폭 단순화하며, 특히 개발자가 비디오 내용과 관련 기술 문서를 동시에 분석하는 고성능 검색 엔진을 더욱 쉽게 구축할 수 있도록 돕는다.
기술적 유연성 측면에서도 Gemini Embedding 2는 압도적인 성능을 자랑한다. 이 모델은 최대 8,192개의 텍스트 토큰과 120초 분량의 비디오, 그리고 여러 페이지로 구성된 문서를 한 번에 처리할 수 있다. 무엇보다 주목할 만한 기능은 Matryoshka Representation Learning(MRL) 기술의 적용이다. 이는 기본 3072차원인 임베딩 데이터의 크기를 성능 저하를 최소화하면서도 개발자의 필요에 따라 자유롭게 축소할 수 있는 기법이다. 이에 따라 대규모 데이터셋을 운용하는 환경에서도 저장 비용을 획기적으로 절감하며 효율적인 애플리케이션 관리가 가능해졌다.
또한 Gemini Embedding 2는 별도의 텍스트 변환 과정 없이 오디오를 직접 이해하고, 이미지와 텍스트가 혼합된 입력을 동시에 처리하는 등 인간과 흡사한 정보 처리 방식을 보여준다. 현재 Gemini API와 Vertex AI를 통해 공개 프리뷰 형태로 제공되고 있으며, 이미 주요 개발 프레임워크와의 통합이 활발히 진행 중이다. 이번 출시는 현실 세계의 비정형화된 데이터를 보다 직관적으로 다룰 수 있는 원활한 멀티모달 AI 시대를 여는 중요한 이정표가 될 것으로 기대된다.