AWS, Nova 모델 기반 확장형 멀티모달 비디오 검색 공개
- •AWS, Amazon Nova 모델을 활용해 8,480시간 분량의 비디오를 41시간 만에 처리 완료
- •자연어 기반의 텍스트-비디오 및 비디오-비디오 시맨틱 검색을 대규모로 구현하는 시스템 구축
- •최적화된 임베딩 차원 적용으로 79만 2,000개 비디오 인덱싱 비용을 18,088달러로 절감
AWS가 '멀티모달 임베딩' 관리를 위한 강력한 아키텍처를 선보였다. 이는 시각 및 오디오 데이터를 하나의 수치적 표현으로 결합해 컴퓨터가 비디오 콘텐츠를 깊이 있게 이해하도록 돕는 기술이다. 특히 새로운 Amazon Nova 모델군을 활용하면 개발자들은 수작업 태깅이나 단순 키워드 검색에 의존하지 않고도 방대한 미디어 라이브러리를 인덱싱할 수 있다. 실제로 약 80만 개의 영상을 대상으로 진행된 대규모 실험을 통해, 단어의 일치 여부보다 의미에 집중하는 '시맨틱 검색'으로의 전환이 성공적으로 입증되었다.
기술적인 파이프라인을 살펴보면, Amazon Nova 멀티모달 임베딩을 통해 비디오를 15초 단위의 세그먼트로 분할하여 장면 변화를 포착하면서도 저장 효율성을 유지한다. 연구진은 1024차원의 임베딩을 사용할 경우 검색 정확도 손실 없이 더 큰 포맷 대비 비용을 3배가량 절감할 수 있음을 확인했다. 또한 시스템의 정밀도를 극대화하기 위해 개념적 유사성을 측정하는 벡터 근접도와 기존의 키워드 매칭을 결합한 '하이브리드 검색' 방식을 채택했다.
8,000시간 이상의 방대한 데이터를 처리하는 과정은 단 41시간 만에 완료되었으며, 운영 비용은 첫해 기준 약 27,000달러 수준으로 나타났다. 이러한 성과는 미디어 및 엔터테인먼트 기업들이 산업적 규모의 AI 데이터 레이크를 경제적으로 구축할 수 있음을 시사한다. 특히 Amazon Nova Lite를 통한 묘사적 태깅과 OpenSearch의 인덱싱 기능을 결합함으로써, 메타데이터가 아닌 시각적 맥락을 바탕으로 유사한 클립을 찾아내는 '비디오-비디오' 탐색 구현이 현실화되었다.