OmniLottie, 멀티모달 명령어로 벡터 애니메이션 자동 생성
- •OmniLottie 프레임워크는 텍스트, 이미지, 비디오 명령어를 활용해 고품질 Lottie 벡터 애니메이션을 생성한다.
- •특수 설계된 Lottie 토크나이저가 복잡한 JSON 구조를 시각 언어 모델이 처리 가능한 시퀀스로 변환한다.
- •연구진은 200만 개의 전문적인 벡터 애니메이션이 포함된 대규모 데이터셋 MMLottie-2M을 공개했다.
Lottie는 웹과 모바일 앱에서 가볍고 확장성이 뛰어난 벡터 애니메이션의 업계 표준으로 자리 잡았다. 하지만 그 근간이 되는 JSON 구조는 데이터의 양이 방대하고 형식이 복잡하여, 인공지능이 이를 직접 생성하기에는 매우 까다로운 영역이었다. 특히 수많은 메타데이터와 포맷팅 토큰이 실제 애니메이션 로직을 가리는 현상이 빈번하게 발생해 왔다. 이에 따라 연구진은 애니메이션 파라미터를 학습 가능한 토큰으로 취급하여 과정을 간소화한 OmniLottie 프레임워크를 선보였다.
OmniLottie의 핵심은 구조적 중복을 제거하고 원시 JSON 파일을 정제된 명령어 시퀀스로 변환하는 특수 토크나이저에 있다. 이를 통해 시각적 의도와 코드 실행 사이의 간극을 효과적으로 좁힐 수 있게 되었다. 특히 사전 학습된 시각 언어 모델을 기반으로 설계되어, 텍스트 프롬프트와 참조 이미지가 결합된 복잡한 지시사항도 정교하게 해석한다. 그 결과 자연스럽고 전문적인 움직임을 구현하며 의미론적으로 일관된 애니메이션을 출력한다.
생성형 미디어의 새로운 지평을 열기 위해 연구팀은 200만 개의 애니메이션이 포함된 대규모 데이터셋인 MMLottie-2M을 구축했다. 이는 벡터 모션의 미묘한 차이를 이해하는 모델을 훈련하기 위한 최초의 대규모 기반을 제공한다는 점에서 의미가 크다. 실제로 이 프로젝트는 단순한 정적 이미지 생성을 넘어, 디자이너가 자연어 명령만으로 해상도에 구애받지 않는 기능적인 UI 요소나 캐릭터 애니메이션을 제작할 수 있는 강력한 도구를 제시한다.