텐센트, 스승을 뛰어넘는 '제자 AI' 학습법 개발
2026년 2월 13일 (금)
- •텐센트 혼위안(Tencent Hunyuan)이 학습 과정에서 제자 모델이 스승 모델의 성능을 앞지를 수 있게 하는 G-OPD 프레임워크를 공개했다.
- •보상 외삽 기술을 활용해 제자 모델이 특정 도메인의 전문 지식을 통합하고, 특정 분야의 스승을 능가하는 성능을 갖추도록 지원한다.
- •해당 프레임워크는 수학적 추론 및 코드 생성과 같이 정밀함이 요구되는 복잡한 작업에서 유의미한 성능 향상을 입증했다.
기존 AI 학습의 '스승-제자' 모델은 제자 모델의 성능이 스승이 설정한 한계를 넘지 못한다는 근본적인 천장에 부딪혀 왔다. 하지만 텐센트 혼위안(Tencent Hunyuan)의 웬카이 양(Wenkai Yang) 연구팀은 G-OPD 프레임워크를 통해 이러한 위계 질서에 도전장을 내밀었다. 이 프레임워크는 보상 스케일링 요소를 도입하여, 제자 모델이 스승의 기본적인 결과 분포를 넘어 그 이상의 영역을 탐색할 수 있도록 독려한다.
특히 보상 외삽(ExOPD) 기술을 적용하면 제자 모델은 단순히 스승의 답변을 모방하는 데 그치지 않고, 실시간으로 자신의 논리 구조를 정교하게 다듬는 법을 배우게 된다. 이러한 방식은 정답과 오답이 명확히 갈리는 수학 문제 풀이나 코딩 작업에서 매우 강력한 효과를 발휘한다. 실제로 다양한 분야의 전문가 지식을 통합하는 과정에서, 제자 모델은 원래 배워야 할 대상이었던 개별 스승 모델들의 성능을 오히려 추월하는 결과를 보여주었다.
또한 연구팀은 강화 학습을 거치기 전의 베이스 모델을 활용해 보상을 수정하는 기법이 소규모 제자 모델에 더 명확하고 깨끗한 학습 신호를 제공한다는 점을 발견했다. 비록 연산 과정의 복잡도는 다소 증가하지만, 결과적으로 지식의 전수 과정이 훨씬 더 정확하게 이루어지는 이점이 있다. 단순한 흉내내기에서 벗어나 능동적인 논리 교정으로 패러다임을 전환한 이번 연구는 차세대 추론형 AI 모델을 학습시키는 방식에 있어 중요한 이정표가 될 전망이다.