이 기사의 핵심 내용은?

텐센트 혼위안(Tencent Hunyuan)이 학습 과정에서 제자 모델이 스승 모델의 성능을 앞지를 수 있게 하는 G-OPD 프레임워크를 공개했다. 보상 외삽 기술을 활용해 제자 모델이 특정 도메인의 전문 지식을 통합하고, 특정 분야의 스승을 능가하는 성능을 갖추도록 지원한다. 해당 프레임워크는 수학적 추론 및 코드 생성과 같이 정밀함이 요구되는 복잡한 작업에서 유의미한 성능 향상을 입증했다.

텐센트, 스승을 뛰어넘는 '제자 AI' 학습법 개발

•텐센트 혼위안(Tencent Hunyuan)이 학습 과정에서 제자 모델이 스승 모델의 성능을 앞지를 수 있게 하는 G-OPD 프레임워크를 공개했다.
•보상 외삽 기술을 활용해 제자 모델이 특정 도메인의 전문 지식을 통합하고, 특정 분야의 스승을 능가하는 성능을 갖추도록 지원한다.
•해당 프레임워크는 수학적 추론 및 코드 생성과 같이 정밀함이 요구되는 복잡한 작업에서 유의미한 성능 향상을 입증했다.

•제자 인공지능이 스승 인공지능이 가르쳐준 것보다 더 뛰어난 실력을 갖추는 새로운 학습 방법(G-OPD 프레임워크)이 나왔어요.
•단순히 정답을 따라 하는 게 아니라, 스스로 논리를 다듬어서 어려운 수학이나 코딩 문제를 더 잘 풀게 되었어요.
•여러 전문가의 지식을 골고루 배워서 결국 가르쳐준 스승들보다 더 높은 수준에 도달했어요.

기존 AI 학습의 '스승-제자' 모델은 제자 모델의 성능이 스승이 설정한 한계를 넘지 못한다는 근본적인 천장에 부딪혀 왔다. 하지만 텐센트 혼위안(Tencent Hunyuan)의 웬카이 양(Wenkai Yang) 연구팀은 G-OPD 프레임워크를 통해 이러한 위계 질서에 도전장을 내밀었다. 이 프레임워크는 보상 스케일링 요소를 도입하여, 제자 모델이 스승의 기본적인 결과 분포를 넘어 그 이상의 영역을 탐색할 수 있도록 독려한다.

특히 보상 외삽(ExOPD) 기술을 적용하면 제자 모델은 단순히 스승의 답변을 모방하는 데 그치지 않고, 실시간으로 자신의 논리 구조를 정교하게 다듬는 법을 배우게 된다. 이러한 방식은 정답과 오답이 명확히 갈리는 수학 문제 풀이나 코딩 작업에서 매우 강력한 효과를 발휘한다. 실제로 다양한 분야의 전문가 지식을 통합하는 과정에서, 제자 모델은 원래 배워야 할 대상이었던 개별 스승 모델들의 성능을 오히려 추월하는 결과를 보여주었다.

또한 연구팀은 강화 학습을 거치기 전의 베이스 모델을 활용해 보상을 수정하는 기법이 소규모 제자 모델에 더 명확하고 깨끗한 학습 신호를 제공한다는 점을 발견했다. 비록 연산 과정의 복잡도는 다소 증가하지만, 결과적으로 지식의 전수 과정이 훨씬 더 정확하게 이루어지는 이점이 있다. 단순한 흉내내기에서 벗어나 능동적인 논리 교정으로 패러다임을 전환한 이번 연구는 차세대 추론형 AI 모델을 학습시키는 방식에 있어 중요한 이정표가 될 전망이다.

지금까지 인공지능(AI)을 가르칠 때는 실력이 좋은 '스승' 모델이 '제자' 모델을 가르치는 방식을 주로 썼어요. 그런데 제자는 아무리 공부해도 스승의 실력을 뛰어넘지 못한다는 한계(천장)가 있었죠. 하지만 텐센트 연구팀은 이런 규칙을 깨는 새로운 학습 도구(G-OPD 프레임워크)를 개발했어요. 이 방식은 제자 인공지능이 스승이 알려준 정답 범위를 넘어서, 더 넓은 영역을 스스로 탐험할 수 있도록 용기를 북돋아 주는 역할을 해요.

특히 '스스로 더 나은 보상을 찾아내는 기술'(보상 외삽)을 사용하면, 제자 인공지능은 스승의 답변을 그대로 흉내 내는 수준에서 벗어나게 돼요. 대신 실시간으로 자신의 생각이 맞는지 스스로 점검하며 논리(논리 구조)를 아주 정교하게 다듬는 법을 배우죠. 이런 방식은 정답이 딱 정해진 수학 문제나 컴퓨터 언어를 만드는 일(코딩)처럼 아주 정확해야 하는 작업에서 엄청난 효과를 보여주었어요. 실제로 여러 스승에게 지식을 배운 제자 인공지능이, 나중에는 자신을 가르친 개별 스승들보다 문제를 더 잘 풀게 되었답니다.

연구팀은 인공지능이 본격적인 훈련(강화 학습)을 받기 전의 기본 상태(베이스 모델)를 잘 활용하면, 몸집이 작은 제자 인공지능에게도 아주 깨끗하고 정확한 학습 신호를 줄 수 있다는 사실을 발견했어요. 비록 계산하는 과정은 조금 더 복잡해지지만, 결과적으로 지식을 훨씬 더 정확하게 전달할 수 있다는 장점이 있지요. 단순히 따라 하는 것에서 벗어나 스스로 논리를 고쳐나가는 방식(능동적인 논리 교정)으로 바꾼 이번 연구는, 앞으로 더 똑똑하게 생각하는 인공지능을 만드는 데 아주 중요한 길잡이가 될 거예요.

텐센트, 스승을 뛰어넘는 '제자 AI' 학습법 개발

선생님보다 더 똑똑해지는 '천재 제자 인공지능'의 탄생

태그