합성 데이터의 혁신, ‘양보다 질’로 효율 150배 높인다
- •FAC 지표를 통해 텍스트의 표면적 차이가 아닌 모델 내부의 활성화 수치로 데이터 다양성을 측정한다.
- •단 2천 개의 정밀 합성 샘플만으로 30만 개 규모의 기존 데이터셋과 대등한 벤치마크 성능을 달성했다.
- •LLaMA, Mistral, Qwen 등 각기 다른 모델들이 해석 가능한 내부 특성 공간을 공유한다는 점을 발견했다.
현대적인 대규모 언어 모델(LLM)을 학습시키기 위해서는 막대한 양의 고품질 데이터가 필수적이며, 이에 따라 많은 연구자가 부족한 데이터를 보충하기 위해 합성 데이터를 주로 활용한다. 하지만 기존 방식은 문장의 표현을 단순히 바꾸는 등 텍스트의 표면적인 다양성에만 집중해 왔다는 한계가 있었다. 리 중지(Zhongzhi Li, 연구원) 등이 발표한 논문 'Less is Enough'는 이러한 접근법의 맹점을 지적하며, 모델의 내부 로직을 심층적으로 분석하는 '특성 활성화 범위(FAC)'라는 새로운 지표를 제시했다.
FAC는 데이터셋이 모델이 학습한 다양한 개념적 특성, 예를 들어 특정 추론 방식이나 지식 체계를 얼마나 충실히 포괄하는지 측정한다. 연구진은 복잡한 신경망 패턴을 인간이 이해하기 쉬운 개념으로 번역하는 '희소 오토인코더'를 활용해, 소규모 기초 데이터에서 부족한 내부 특성이 무엇인지 정확히 식별해냈다. 이후 해당 특성들을 정밀하게 활성화하도록 설계된 새로운 합성 샘플을 생성함으로써, 모든 데이터가 학습 과정에서 명확한 기능적 역할을 수행하도록 유도했다.
그 결과는 매우 인상적이다. 단 2,000개의 정밀 합성 샘플만으로도 30만 개의 샘플을 사용하는 인기 데이터셋인 MAGPIE의 성능을 따라잡았으며, 이는 데이터 효율을 약 150배가량 개선한 수치다. 이러한 효율성은 지시 이행 및 독성 탐지 등 다양한 작업에서 일관되게 증명되었다. 무엇보다 LLaMA와 Mistral처럼 계보가 다른 모델들이 상당 부분 유사한 내부 특성 공간을 공유한다는 사실이 확인되었는데, 이는 특정 모델에 최적화된 데이터가 다른 모델의 일반화 성능 향상에도 기여할 수 있음을 시사하며 AI 생태계 전반의 학습 효율을 높이는 발판을 마련했다.