難問こそが鍵:数学的推論を飛躍させる「MathForge」
2026年1月29日 (木)
- •MathForgeフレームワークは、学習とデータ生成の両面で難易度の高い問題を優先し、数学的推論能力を向上させる。
- •新開発のDGPOアルゴリズムは、従来のGRPOにおける学習の不均衡を修正し、複雑な難問からの効率的な習得を可能にした。
- •多角的質問再構成(MQR)により、正解を維持したまま問題の「知的な負荷」を体系的に引き上げることに成功した。
現在のAIモデルが複雑な数学問題に苦戦する主な理由は、演習時間の多くを「簡単な」問題に費やしているからだ。 AMAP-MLの研究チームは、広く使われている強化学習アルゴリズムであるGRPOが、難易度の高い問題を意図せず軽視している事実を突き止めた。これにより、モデルが中級レベルのタスクには精通しても、高度な数学的推論の壁を突破できない「天井」が生じていたのである。 この課題を解決するため、チームは難易度の「限界点」に焦点を当てる二段構えのフレームワーク、MathForgeを導入した。 第一の要素であるDGPOは、学習時の更新ウェイトを再調整するアルゴリズムだ。モデルが難問で失敗した際、より大きな注意を払って学習するように促す。これにより、問題が難しすぎるために学習効率が下がってしまう現象を防ぎ、モデルに自らの弱点を克服させる仕組みを構築した。 もう一つの柱が、MQR(多角的質問再構成)だ。これは単に表現を変えるのではなく、正解(ゴールドアンサー)はそのままに、問いの構造をより知的に要求度の高いものへと作り変える手法である。 いわば「重いダンベル」をトレーニングに供給し続けるようなこのアプローチは、主要なベンチマークで劇的な性能向上を記録した。精緻なデータキュレーションを通じてモデルの知性を拡張する、新たな指針となるだろう。