이 기사의 핵심 내용은?

FAC 지표를 통해 텍스트의 표면적 차이가 아닌 모델 내부의 활성화 수치로 데이터 다양성을 측정한다. 단 2천 개의 정밀 합성 샘플만으로 30만 개 규모의 기존 데이터셋과 대등한 벤치마크 성능을 달성했다. LLaMA, Mistral, Qwen 등 각기 다른 모델들이 해석 가능한 내부 특성 공간을 공유한다는 점을 발견했다.

합성 데이터의 혁신, ‘양보다 질’로 효율 150배 높인다

•FAC 지표를 통해 텍스트의 표면적 차이가 아닌 모델 내부의 활성화 수치로 데이터 다양성을 측정한다.
•단 2천 개의 정밀 합성 샘플만으로 30만 개 규모의 기존 데이터셋과 대등한 벤치마크 성능을 달성했다.
•LLaMA, Mistral, Qwen 등 각기 다른 모델들이 해석 가능한 내부 특성 공간을 공유한다는 점을 발견했다.

•인공지능이 겉으로 보이는 문장이 아니라 머릿속으로 어떻게 생각하는지 확인하는 새로운 측정 방법(FAC)을 만들었어요.
•꼭 필요한 핵심 문제 2천 개만 골라서 공부시켰더니, 일반 문제집 30만 권을 푼 것과 똑같은 실력이 되었어요.
•서로 다른 인공지능들도 생각하는 방식이 비슷하다는 점을 발견해서, 한 인공지능을 위해 만든 좋은 자료를 다른 인공지능에게도 쓸 수 있게 되었어요.

현대적인 대규모 언어 모델(LLM)을 학습시키기 위해서는 막대한 양의 고품질 데이터가 필수적이며, 이에 따라 많은 연구자가 부족한 데이터를 보충하기 위해 합성 데이터를 주로 활용한다. 하지만 기존 방식은 문장의 표현을 단순히 바꾸는 등 텍스트의 표면적인 다양성에만 집중해 왔다는 한계가 있었다. 리 중지(Zhongzhi Li, 연구원) 등이 발표한 논문 'Less is Enough'는 이러한 접근법의 맹점을 지적하며, 모델의 내부 로직을 심층적으로 분석하는 '특성 활성화 범위(FAC)'라는 새로운 지표를 제시했다.

FAC는 데이터셋이 모델이 학습한 다양한 개념적 특성, 예를 들어 특정 추론 방식이나 지식 체계를 얼마나 충실히 포괄하는지 측정한다. 연구진은 복잡한 신경망 패턴을 인간이 이해하기 쉬운 개념으로 번역하는 '희소 오토인코더'를 활용해, 소규모 기초 데이터에서 부족한 내부 특성이 무엇인지 정확히 식별해냈다. 이후 해당 특성들을 정밀하게 활성화하도록 설계된 새로운 합성 샘플을 생성함으로써, 모든 데이터가 학습 과정에서 명확한 기능적 역할을 수행하도록 유도했다.

그 결과는 매우 인상적이다. 단 2,000개의 정밀 합성 샘플만으로도 30만 개의 샘플을 사용하는 인기 데이터셋인 MAGPIE의 성능을 따라잡았으며, 이는 데이터 효율을 약 150배가량 개선한 수치다. 이러한 효율성은 지시 이행 및 독성 탐지 등 다양한 작업에서 일관되게 증명되었다. 무엇보다 LLaMA와 Mistral처럼 계보가 다른 모델들이 상당 부분 유사한 내부 특성 공간을 공유한다는 사실이 확인되었는데, 이는 특정 모델에 최적화된 데이터가 다른 모델의 일반화 성능 향상에도 기여할 수 있음을 시사하며 AI 생태계 전반의 학습 효율을 높이는 발판을 마련했다.

요즘 유행하는 똑똑한 인공지능(대규모 언어 모델)을 가르치려면 엄청나게 많은 공부 자료(데이터)가 필요해요. 그래서 과학자들은 컴퓨터가 스스로 만든 가짜 자료(합성 데이터)를 사용하곤 했어요. 하지만 지금까지는 문장만 살짝 바꾸는 식이라 공부 효과가 크지 않았지요. 이번 연구는 인공지능의 머릿속 생각을 깊이 분석하는 ‘내용이 얼마나 다양한가(특성 활성화 범위, FAC)’라는 새로운 기준을 제시했어요.

이 기준은 인공지능이 배운 지식이 얼마나 골고루 들어있는지 측정해요. 연구팀은 인공지능의 복잡한 생각을 사람이 이해하기 쉬운 개념으로 바꿔주는 도구(희소 오토인코더)를 사용해서, 인공지능에게 어떤 공부가 부족한지 정확히 찾아냈어요. 그리고 그 부족한 부분만 콕 집어서 가르쳐주는 특별한 맞춤형 문제(정밀 합성 샘플)를 만들어 인공지능이 모든 자료를 완벽하게 이해하도록 도왔어요.

그 결과는 놀라웠어요. 단 2,000개의 핵심 문제만으로도 30만 개의 자료가 담긴 유명한 문제집(MAGPIE)을 공부한 것과 같은 성적을 냈거든요. 공부 효율이 무려 150배나 좋아진 셈이에요. 특히 라마(LLaMA)나 미스트랄(Mistral)처럼 종류가 다른 인공지능들도 서로 비슷한 생각 주머니(내부 특성 공간)를 공유한다는 사실을 알아냈어요. 이는 한 인공지능을 위해 만든 좋은 자료가 다른 인공지능들의 실력을 높이는 데도 똑같이 도움이 될 수 있다는 것을 보여줍니다.

합성 데이터의 혁신, ‘양보다 질’로 효율 150배 높인다

인공지능 공부법의 혁명, “문제집 30만 권보다 제대로 된 2천 문제가 낫다!”

태그