F-GRPO:AIが「正解の種」を見逃さない新技術
2026年2月9日 (月)
- •F-GRPOは難易度に応じたスケーリングを導入し、AIが稀な正解パターンを無視するのを防ぐ
- •Qwen2.5-7Bを用いた検証では、計算コストを増やすことなく複雑な推論能力の向上が確認された
- •難易度の高いプロンプトを優先することで、pass@256スコアが64.1から70.3へと大幅に上昇した
現代のAIに高度な推論を学習させることは、いわば「干し草の山から針を探す」ような難業である。従来の検証可能な報酬を伴う強化学習(RLVR)では、グループサンプリングを用いて正解へのルートを推定するが、メモリの制約によりサンプル数が不足しがちだ。そのため、稀にしか現れない正しい解決策が切り捨てられる傾向にあり、結果としてAIは単純な回答ばかりを過剰に学習し、深層推論に不可欠な複雑な解法を無視する「怠惰なモデル」に陥ってしまう。
これに対し、新たに提案された「F-GRPO」は、難易度に応じたスケーリングロジックによってこの問題を打破する。分類が困難なデータを優先する数学的手法「Focal loss」に着想を得て、容易な問題の重みを意図的に引き下げる仕組みだ。すでに正解率が100%に達した問題への執着を捨てることで、AIはこれまで見過ごしてきた希少な正解パターンを探索し始める。これにより、モデルの学習の力点は、単なるパターンの反復から、多様かつ高度な解決策の発見へと劇的にシフトするのだ。
実際にQwen2.5-7Bを用いた検証では、追加の計算コストを一切かけずに推論ベンチマークのスコアが向上した。とりわけ、一定の試行回数内で正解を見つける確率を示す「pass@k」指標は、顕著な伸びを記録している。この手法は報酬の評価基準を調整するだけであり、計算量そのものは増えない。そのため、既存のGRPOなどの学習フレームワークに対し、追加のハードウェア投資なしで即座に統合できる点が極めて画期的である。