UC Berkeley 연구진, 비디오 AI 속도 18배 향상
- •UC Berkeley의 SLA2 아키텍처, 비디오 확산 모델의 어텐션 속도를 18.6배까지 향상
- •희소 어텐션과 선형 어텐션 중 최적의 연산 경로를 동적으로 선택하는 학습형 라우터 도입
- •양자화 인식 훈련을 통해 97%의 높은 희소성을 달성하면서도 원본 수준의 시각적 품질 유지
AI를 활용한 고품질 비디오 생성은 모델이 프레임의 각기 다른 부분에 집중하는 '어텐션' 연산 방식 때문에 막대한 연산 비용이 발생하는 것으로 잘 알려져 있다. 기존의 표준 방식들은 처리 속도와 시각적 충실도 사이의 균형을 맞추는 데 어려움을 겪었으며, 그 결과 길거나 복잡한 영상의 경우 처리 시간이 현저히 지연되는 문제가 발생해 왔다. 이에 따라 UC Berkeley 연구진은 최종 출력물의 품질을 저하시키지 않으면서도 이 과정을 획기적으로 최적화한 'SLA2(Sparse-Linear Attention)' 아키텍처를 새롭게 선보였다. 방대한 데이터를 처리하는 방식을 근본적으로 재설계함으로써, 이 모델은 더욱 부드럽고 효율적인 비디오 합성을 가능하게 한다.
이번 성과의 핵심은 세 가지 주요 구조적 개선에 있다. 먼저 모델이 어떤 데이터가 중요한지 결정할 때 경직된 고정 규칙을 사용하는 대신, 학습형 라우터를 도입해 매 프레임마다 가장 효율적인 계산 경로를 동적으로 선택하게 했다. 또한 특정 고해상도 포인트에 집중하는 '희소 어텐션'과 전반적인 패턴을 요약하는 '선형 어텐션'을 유연한 비율로 혼합하는 직접 수식을 활용했다. 특히 이러한 혼합 비율을 학습할 수 있도록 설계하여, 처리 속도뿐만 아니라 움직임을 재구성하는 수학적 정밀도까지 동시에 확보했다.
효율성을 극대화하기 위해 연구팀은 양자화 인식 훈련 기법을 통합했다. 이 기법은 모델이 더 낮은 정밀도의 숫자를 사용하는 디지털 약칭 방식을 취하면서도, 이 과정에서 발생하는 '반올림 오차(양자화 오차)'를 처리할 수 있도록 AI를 특화 훈련하는 방식이다. 실제로 진타오 장(Jintao Zhang) 연구원 등 연구진이 주도한 이번 실험 결과는 매우 놀랍다. 시스템은 어텐션 연산 시 불필요한 데이터 포인트의 97%를 배제하는 '희소성'을 달성했으며, 결과적으로 어텐션 단계에서만 18.6배의 속도 향상을 이뤄냈다. 이는 효율성 강화가 반드시 창의적 품질의 희생으로 이어지지 않는다는 점을 명확히 증명한 결과다.