PackForcing, 5초 학습으로 2분 고품질 영상 생성 구현
2026년 3월 30일 (월)
- •H200 GPU 한 대와 4GB KV-cache만으로 2분 길이의 영상을 생성한다.
- •계층적 문맥 압축을 통해 5초 분량의 짧은 클립으로도 장편 영상 모델을 학습시키는 프레임워크를 사용한다.
- •고해상도 앵커 프레임과 32배 시공간 압축을 결합한 3분할 KV-cache 전략을 활용한다.
그동안 AI 모델에게 일관성 있는 긴 영상을 생성하는 작업은 매우 까다로운 과제였다. 방대한 메모리 요구량은 물론, 시간이 지날수록 프레임이 반복되거나 깨지는 현상이 빈번하게 발생했기 때문이다. 이에 따라 일본의 Shanda AI Research Tokyo 연구진은 생성 과정 중 과거 데이터를 저장하는 방식인 KV-cache를 근본적으로 재설계한 혁신적인 프레임워크 'PackForcing'을 선보였다.
이 시스템은 문맥 메모리를 효율적으로 관리하기 위해 정교한 3분할 관리 방식을 채택했다. 구체적으로는 전체적인 이야기 흐름을 유지하고자 초기 핵심 '앵커' 프레임들을 고해상도 그대로 보존하며, 동시에 영상의 중간 부분은 특화된 듀얼 브랜치 네트워크를 통해 32배나 강력하게 압축한다. 덕분에 모델은 하드웨어 메모리에 과부하를 주지 않으면서도 수분 분량의 영상 정보를 안정적으로 추적할 수 있게 되었다.
무엇보다 PackForcing은 단 5초의 짧은 영상 학습만으로도 초당 16프레임의 고화질 2분 영상을 생성해내는 놀라운 효율성을 보여준다. 특히 동적 선택 메커니즘과 Temporal RoPE 기술을 결합하여 긴 시퀀스 전반에서 엄격한 시간적 일관성을 유지한다. 실제로 이번 성과는 짧은 영상 기반의 학습이 고품질 장편 영상 합성에도 충분하다는 사실을 입증했으며, 이는 향후 비디오 AI의 데이터 및 연산 장벽을 크게 낮출 것으로 기대된다.