OPUS, 스마트한 데이터 선택으로 LLM 학습 효율 6.7배 높였다
- •300억 개의 토큰만으로 2,000억 개 규모의 학습 성과를 달성하며 6.7배의 효율성을 확보함
- •새로운 옵티마이저 인식 로직을 통해 추가 계산 비용을 4.7% 수준으로 대폭 절감함
- •Qwen 연구팀이 개발한 이 프레임워크는 과학 등 전문 영역에서 최대 6배의 데이터 효율을 기록함
인터넷상의 고품질 텍스트 데이터가 고갈되는 이른바 '데이터 장벽(Data Wall)' 현상이 발생하면서, AI 개발의 중심이 양적 팽창에서 질적 정밀함으로 옮겨가고 있다. 기존의 사전 학습 방식은 대개 학습 시작 전 어떤 데이터가 유익할지 추측하는 정적 필터링에 의존해 왔다. 그러나 이러한 고정된 방식은 모델이 학습 과정에서 진화하며 필요로 하는 데이터의 성격이 계속 변한다는 점을 간과하는 한계가 있었다.
이에 Qwen 연구팀은 데이터의 가치를 동적으로 평가하는 새로운 프레임워크인 OPUS를 선보였다. OPUS는 단순히 데이터의 외형적 품질을 측정하는 데 그치지 않고, 특정 정보가 AdamW나 뮤온과 같은 옵티마이저의 수학적 특성에 따라 모델의 내부 가중치를 실제로 어떻게 변화시킬지 계산한다. 시스템의 실제 '학습 기하학'에 맞춰 데이터를 선별함으로써, 처리되는 모든 토큰이 모델의 발전에 실질적으로 기여하도록 설계된 것이다.
실제 테스트 결과, OPUS의 효율성은 놀라운 수준이었다. 단 300억 개의 토큰으로 학습된 모델이 2,000억 개의 토큰을 사용한 기존 산업 기준 모델의 성능을 압도하며 약 6.7배의 생산성 향상을 입증했다. 또한 연구팀은 고스트 기법과 같은 수학적 지름길을 활용하여 추가적인 계산 부담을 전체 비용의 4.7% 수준으로 억제하는 데 성공했다. 이는 데이터 선정 과정이 수학적으로 정교하고 동적일 때, 정제되지 않은 대규모 데이터보다 잘 큐레이션된 소규모 데이터가 훨씬 강력한 위력을 발휘할 수 있음을 보여준다.