この記事の要点は？

F-GRPOは難易度に応じたスケーリングを導入し、AIが稀な正解パターンを無視するのを防ぐ Qwen2.5-7Bを用いた検証では、計算コストを増やすことなく複雑な推論能力の向上が確認された難易度の高いプロンプトを優先することで、pass@256スコアが64.1から70.3へと大幅に上昇した

F-GRPO：AIが「正解の種」を見逃さない新技術

•F-GRPOは難易度に応じたスケーリングを導入し、AIが稀な正解パターンを無視するのを防ぐ
•Qwen2.5-7Bを用いた検証では、計算コストを増やすことなく複雑な推論能力の向上が確認された
•難易度の高いプロンプトを優先することで、pass@256スコアが64.1から70.3へと大幅に上昇した

現代のAIに高度な推論を学習させることは、いわば「干し草の山から針を探す」ような難業である。従来の検証可能な報酬を伴う強化学習（RLVR）では、グループサンプリングを用いて正解へのルートを推定するが、メモリの制約によりサンプル数が不足しがちだ。そのため、稀にしか現れない正しい解決策が切り捨てられる傾向にあり、結果としてAIは単純な回答ばかりを過剰に学習し、深層推論に不可欠な複雑な解法を無視する「怠惰なモデル」に陥ってしまう。

これに対し、新たに提案された「F-GRPO」は、難易度に応じたスケーリングロジックによってこの問題を打破する。分類が困難なデータを優先する数学的手法「Focal loss」に着想を得て、容易な問題の重みを意図的に引き下げる仕組みだ。すでに正解率が100％に達した問題への執着を捨てることで、AIはこれまで見過ごしてきた希少な正解パターンを探索し始める。これにより、モデルの学習の力点は、単なるパターンの反復から、多様かつ高度な解決策の発見へと劇的にシフトするのだ。

実際にQwen2.5-7Bを用いた検証では、追加の計算コストを一切かけずに推論ベンチマークのスコアが向上した。とりわけ、一定の試行回数内で正解を見つける確率を示す「pass@k」指標は、顕著な伸びを記録している。この手法は報酬の評価基準を調整するだけであり、計算量そのものは増えない。そのため、既存のGRPOなどの学習フレームワークに対し、追加のハードウェア投資なしで即座に統合できる点が極めて画期的である。

現代のAIに高度な推論を学習させることは、いわば「干し草の山から針を探す」ような難業である。従来の検証可能な報酬を伴う強化学習（RLVR）では、グループサンプリングを用いて正解へのルートを推定するが、メモリの制約によりサンプル数が不足しがちだ。そのため、稀にしか現れない正しい解決策が切り捨てられる傾向にあり、結果としてAIは単純な回答ばかりを過剰に学習し、深層推論に不可欠な複雑な解法を無視する「怠惰なモデル」に陥ってしまう。

これに対し、新たに提案された「F-GRPO」は、難易度に応じたスケーリングロジックによってこの問題を打破する。分類が困難なデータを優先する数学的手法「Focal loss」に着想を得て、容易な問題の重みを意図的に引き下げる仕組みだ。すでに正解率が100％に達した問題への執着を捨てることで、AIはこれまで見過ごしてきた希少な正解パターンを探索し始める。これにより、モデルの学習の力点は、単なるパターンの反復から、多様かつ高度な解決策の発見へと劇的にシフトするのだ。

実際にQwen2.5-7Bを用いた検証では、追加の計算コストを一切かけずに推論ベンチマークのスコアが向上した。とりわけ、一定の試行回数内で正解を見つける確率を示す「pass@k」指標は、顕著な伸びを記録している。この手法は報酬の評価基準を調整するだけであり、計算量そのものは増えない。そのため、既存のGRPOなどの学習フレームワークに対し、追加のハードウェア投資なしで即座に統合できる点が極めて画期的である。

F-GRPO：AIが「正解の種」を見逃さない新技術

タグ