AIの推論学習を妨げる「評価バイアス」の正体
2026年1月25日 (日)
- •研究チームが、GRPO等の強化学習手法において推論モデルの学習を阻害する根本的なバイアスを特定した。
- •現在の評価手法は、学習中に難解なプロンプトを過小評価し、単純なタスクを過大評価する傾向があることが判明した。
- •新手法「HA-DW」はこのバイアスを修正し、主要な数学的推論ベンチマーク5種において性能を大幅に向上させた。
大規模言語モデル (LLM)の学習において、数学や論理的課題の解決能力を高める「ポストトレーニング」は不可欠な工程だ。 現在、多くのモデルで採用されているのが、個別の評価用モデル(クリティック)を必要としない効率的な手法「GRPO」である。しかし、最新の研究によって、このショートカットには数学的なバイアスという致命的な欠陥があることが明らかになった。 問題の本質は、AIが課題の「難易度」をどう認識するかにある。現在のシステムはプロンプトの複雑さを十分に考慮できていない。具体的には、難問に対する進歩を過小評価する一方で、簡単なタスクに対しては過剰に評価してしまうのだ。 これは、難しい問題に挑戦しても報われず、単純な計算だけで褒められる生徒のような状態といえる。その結果、AIは困難な解決策の探索を止め、既知の単純なパターンに依存するようになってしまう。 この課題に対し、研究者らは「History-Aware Adaptive Difficulty Weighting (HA-DW)」という手法を提案した。これは過去のパフォーマンスの移動平均を「難易度の指標」として使い、報酬をリアルタイムで再調整する仕組みだ。 実際の難易度に基づいて報酬の重みを調整することで、学習の堅牢性は劇的に向上した。5つの主要な数学ベンチマークでの実験結果は、この隠れたバイアスの修正が、次世代の高度なAIエージェント構築に不可欠であることを示唆している。