AI知識蒸留に革新、弟子が師匠を超える
2026年2月13日 (金)
- •Tencent Hunyuanが、学習過程でAIモデルが自身の教師役を超えることを可能にする新フレームワーク「G-OPD」を発表した。
- •「報酬外挿」技術を用いることで、生徒モデルが複数の領域の知見を統合し、特定の教師モデルを凌駕する性能を獲得した。
- •数学的推論やコード生成といった複雑なタスクにおいて、大幅な性能向上が実証されている。
従来のAI学習における「教師と生徒」モデルには、生徒は教師の能力を超えられないという構造的な限界が存在していた。しかし、テンセント(Tencent)の研究員であるヤン・ウェンカイ(Wenkai Yang)氏らは、この常識を覆すフレームワーク「G-OPD(Generalized On-Policy Distillation)」を発表した。この手法は報酬のスケーリングを調整することで、生徒モデルに教師の基準を超えた探索を促す仕組みである。
「報酬外挿(ExOPD)」と呼ばれる技術を適用することで、生徒モデルは教師の単純な模倣に留まらず、自律的に論理性や回答を洗練させていく。この手法は、明確な正解が存在する数学やプログラミングの分野で特に威力を発揮する。実際に複数の専門分野を持つ教師から知識を統合した際、生徒モデルがそれぞれの教師役を上回る性能を示したことは、AI学習における画期的な成果といえる。
また、研究チームは「報酬補正」を通じて、強化学習を適用する前のベースモデルを活用し、生徒モデルにより純粋な学習信号を伝える手法も提案した。計算負荷は多少増大するものの、結果として知識の伝達はより正確になる。単なる真似から能動的な論理修正へのシフトは、次世代の高度な推論モデルを効率的に育成する上で、極めて重要なステップとなるはずだ。