이 기사의 핵심 내용은?

MARS는 모델 구조 변경 없이 자기회귀 모델이 여러 토큰을 동시에 예측하게 한다. 기존 정확도를 유지하면서도 처리량(throughput)을 1.5~1.7배 향상했다. 추론 시 신뢰도 임계값을 통해 실시간으로 속도를 동적으로 조절할 수 있다.

MARS, 자기회귀 모델 생성 속도 혁신

•MARS는 모델 구조 변경 없이 자기회귀 모델이 여러 토큰을 동시에 예측하게 한다.
•기존 정확도를 유지하면서도 처리량(throughput)을 1.5~1.7배 향상했다.
•추론 시 신뢰도 임계값을 통해 실시간으로 속도를 동적으로 조절할 수 있다.

자기회귀 모델은 텍스트를 생성할 때 한 번에 한 단어씩 순차적으로 예측하는 방식을 취한다. 이러한 특성은 모델의 강력한 성능에도 불구하고, 실시간 응답이 필요한 상황에서 병목 현상을 일으키는 주요 원인이 되어왔다. 남양공과대학교 연구진은 이러한 한계를 극복하기 위해 MARS(Mask AutoRegression)라는 새로운 미세 조정 기법을 도입했다.

MARS는 기존의 추측 디코딩이나 다중 헤드 구조와 달리 구조적 단순함이 강점이다. 별도의 보조 모델이나 추가적인 레이어를 구성할 필요 없이, 가벼운 미세 조정 단계만으로 구현이 가능하다. 또한 기본 모델 구조를 수정하지 않고도 기존 체크포인트와 완벽하게 호환된다는 점이 특징이다.

연구진은 지시어 미세 조정 데이터를 재활용하여 모델이 한 번의 계산으로 여러 토큰을 동시에 예측하도록 학습시켰다. 이 방식은 모델의 본래 정확도를 유지하면서도 처리 과정을 효과적으로 일괄 처리하는 효과를 낳았다. 실제로 Qwen2.5-7B와 같은 모델을 대상으로 한 실험에서 처리량이 1.5배에서 1.7배까지 증가하는 성과를 거두었다.

또한, 시스템 효율을 극대화하기 위해 블록 단위의 KV Caching 전략을 함께 도입했다. 이는 배치 추론 상황에서 모델의 처리 속도를 더욱 가속화하며, 하드웨어 자원에만 의존하지 않고 알고리즘 최적화를 통해 효율을 높일 수 있음을 증명했다.

MARS의 가장 실용적인 기능은 실시간 속도 조절 기능이다. 신뢰도 임계값 설정을 통해 요청 부하에 따라 단일 토큰 출력과 다중 토큰 출력을 유연하게 전환할 수 있다. 관리자는 모델을 재시작하거나 교체할 필요 없이 서비스 상황에 맞춰 속도와 품질 사이의 균형을 즉각적으로 조정할 수 있다.