Calibri, 최소한의 튜닝으로 Diffusion Transformer 효율 극대화
- •Calibri는 진화 알고리즘을 통해 단 100개의 파라미터만 조정하여 Diffusion Transformer를 최적화한다.
- •이 캘리브레이션 방식은 이미지 품질을 높이는 동시에 필요한 추론 단계 수를 줄여준다.
- •가벼운 접근 방식 덕분에 다양한 대규모 텍스트-이미지 생성 모델의 성능을 일관되게 개선한다.
Diffusion Transformer(DiT)는 고품질 이미지 생성의 핵심으로 자리 잡았으나, 선명한 결과물을 얻기 위해 수많은 연산 단계를 거쳐야 한다는 단점이 있었다. 이에 연구진은 모델 전체를 재설계하지 않고도 잠재력을 극대화할 수 있는 가벼운 캘리브레이션 기술인 Calibri를 도입했다. 특히 이 방식은 기존 모델을 최소한의 에너지와 시간 비용으로 정교하게 다듬을 수 있게 해준다.
전체 시스템을 재학습시키는 대신, Calibri는 디노이징 블록 내의 단일 학습 스케일링 파라미터에 집중한다. 연구팀은 내부 메커니즘을 알 필요가 없는 '블랙박스' 최적화 문제로 이를 설정하고, 진화 알고리즘을 활용해 최적의 설정을 찾아냈다. 이 과정에서 조정되는 파라미터는 약 100개에 불과하며, 이는 수십억 개의 파라미터를 가진 현대 AI 시스템의 극히 일부에 해당한다. 덕분에 기존의 미세 조정 방식보다 훨씬 민첩한 적응이 가능해졌다.
결과는 상당히 인상적이다. Calibri는 생성된 이미지의 시각적 충실도를 높일 뿐만 아니라, 추론 단계를 줄여 모델 작동 속도를 대폭 향상시켰다. 여기서 추론 단계란 AI가 무작위 노이즈를 최종 이미지로 변환하는 반복 주기를 의미한다. 이러한 효율성 덕분에 연구자와 개발자들은 자원 소모를 줄이면서도 하이엔드급 이미지 생성을 더욱 쉽게 수행할 수 있게 되었다. 무엇보다 Calibri는 생성 단계에서의 정보 처리 방식을 최적화함으로써 거대 모델조차 미세한 조정만으로 성능을 크게 개선할 수 있음을 입증했다.