IndexCache: 레이어 간 인덱스 공유로 거대 모델 속도 혁신
- •IndexCache는 연속된 모델 레이어에서 토큰 선택 결과를 재사용하여 Sparse Attention 연산량을 줄인다.
- •30B 파라미터 모델 기준, 프리필(Prefill) 속도는 1.82배, 디코딩(Decode) 속도는 1.48배 향상되었다.
- •모델 출력 품질의 저하 없이 중복되는 인덱서 작업을 75%까지 절감하는 성과를 거두었다.
최근 AI 모델은 긴 대화를 처리할 때 모든 단어 간의 관계를 계산해야 하므로 연산 부하가 급증하는 문제에 직면해 있다. 이를 해결하기 위해 중요한 단어에만 집중하는 Sparse Attention 기법이 활용되고 있으나, 모델의 모든 레이어에서 매번 중요 단어를 새로 계산하는 과정에서 여전히 막대한 에너지가 낭비된다. 특히 칭화대학교 연구진은 인접한 레이어 간의 중요도 계산 결과가 상당 부분 일치한다는 점을 발견했으며, 이는 성능 향상의 결정적인 병목 구간으로 지목되었다.
이에 따라 연구진은 이러한 중복성을 제거하기 위한 IndexCache 시스템을 도입했다. 이 시스템은 특정 레이어에서 중요 단어가 식별되면 다음 레이어에서도 동일한 정보가 필요할 가능성이 높다는 점에 주목한다. 구체적으로는 일부 레이어를 'Full 레이어'로 지정해 고난도 연산을 수행하게 하고, 나머지 'Shared 레이어'는 그 결과를 그대로 복사해 사용하도록 설계되었다. 그 결과 불필요한 중복 계산을 최대 75%까지 줄이면서도 모델의 집중력을 유지할 수 있게 되었다.
해당 기술은 최적의 공유 패턴을 찾아내는 '훈련 미필요(Training-free)' 방식과 지식 증류를 통해 공유 정확도를 높이는 '훈련 기반(Training-aware)' 방식의 두 가지 형태로 구현되었다. 실제로 300억 개의 파라미터를 가진 모델에서 테스트한 결과, 텍스트 초기 처리 단계인 프리필 속도는 약 2배 가까이 빨라졌으며 응답 생성 속도 또한 크게 향상되었다.
무엇보다 이번 연구 결과는 거대 AI 시스템이 지능을 유지하면서도 훨씬 더 가볍고 빠르게 작동할 수 있음을 입증했다. 특히 7,440억 개의 파라미터를 보유한 초거대 모델에서도 그 효과가 확인됨에 따라, IndexCache는 실제 서비스 적용이 가능한 수준에 도달한 것으로 평가받는다. 이에 따라 긴 문맥을 다루는 AI 에이전트와 같은 도구들이 일상적인 애플리케이션에서 더욱 실용적이고 저렴하게 활용될 전망이다.