ShotStream, 실시간 인터랙티브 비디오 시대 열다
- •ShotStream 아키텍처, 단일 GPU에서 초당 16프레임(FPS)의 실시간 비디오 생성 달성
- •이중 캐시 메모리 메커니즘을 통한 여러 서사 장면 간 시각적 일관성 확보
- •학습과 실시간 추론 사이의 격차를 해소하는 2단계 증류(Distillation) 프로세스 도입
ShotStream은 AI가 장편 비디오를 제작하는 방식에 근본적인 변화를 가져왔다. 기존의 느린 '일괄 처리' 방식에서 벗어나 실시간 스트리밍 접근법을 채택한 것이다. 특히 이전 프레임을 바탕으로 다음 프레임을 예측하는 인과적 구조로 설계를 변경하여, 사용자가 이야기가 전개되는 도중에 직접 개입할 수 있게 했다. 이러한 상호작용성은 디지털 스토리텔링 분야의 큰 도약으로, 전체 생성 과정을 재시작할 필요 없이 텍스트 프롬프트를 통해 즉석에서 서사를 조정하는 것이 가능하다.
서로 다른 장면 간에 일관된 시각적 요소를 유지하는 것은 비디오 모델의 고질적인 난제 중 하나였다. ShotStream은 인간의 단기 및 장기 기억과 유사하게 작동하는 이중 캐시 메모리 시스템으로 이 문제를 해결했다. 글로벌 캐시는 전체적인 시각적 스타일과 캐릭터의 세부 사항을 기억해 장면 간 일관성을 유지하며, 로컬 캐시는 현재 장면 내의 부드러운 움직임에 집중한다. 또한 연구진은 이 두 기억 장치가 혼동되지 않도록 과거의 맥락과 새로운 생성을 명확히 분리하는 특수 인디케이터를 구현했다.
모델을 실시간으로 구동할 수 있을 만큼 빠르게 만들기 위해 연구팀은 증류(Distillation) 기술을 활용했다. 이는 작고 빠른 모델이 거대 모델의 고품질 출력을 모방하도록 학습시키는 방식이다. 특히 AI를 완벽한 데이터로 먼저 학습시킨 뒤 스스로 생성한 이력을 다시 학습시키는 과정을 거쳐, 긴 비디오 시퀀스에서 흔히 발생하는 오류 누적 문제를 성공적으로 해결했다. 그 결과 1초 미만의 응답 속도로 고품질 다중 장면 서사를 생성할 수 있게 되었으며, 이는 진정한 인터랙티브 AI 시네마의 길을 열어주었다.