新手法BandPO、LLMのエントロピー崩壊を解消
2026年3月9日 (月)
- •復旦大学の研究チームが、強化学習の安定性と探索能力の不足を解消する新手法「BandPO」を発表した。
- •固定されたクリッピングの代わりに動的な境界を導入し、エントロピー崩壊を防ぐことで数学的推論性能を向上させた。
- •QwenやDeepSeekを用いたベンチマークで、標準的なGRPOを安定して上回る性能を実証した。
強化学習は現代のAIモデルが持つ推論能力の源泉であるが、標準的な手法には「安定性」と「多様性」のトレードオフという課題が潜んでいた。現在の主流な技術では、学習を安定させるために固定された「クリッピング」メカニズムを採用している。しかし、この硬直した境界設定が、出現頻度は低いものの極めて有効な戦略を不当に抑制してしまうことが判明した。その結果、モデルが多様な解決策を模索できなくなる「エントロピー崩壊」という現象が引き起こされるのである。
この課題を解決すべく、復旦大学の研究チームは「Band-constrained Policy Optimization(BandPO)」を提案した。この手法は、従来の静的な制限を、各アクションの確率に応じて柔軟に変化する動的な「Band(帯域)」オペレータに置き換える。具体的には、f-ダイバージェンスという数学的射影を用いることで、学習の境界をリアルタイムで拡大・縮小させる仕組みだ。この柔軟な設計により、大規模なトレーニングの安定性を維持しつつ、これまで切り捨てられていた「テール戦略(稀だが正しい解法)」を効果的に学習することが可能になった。
実際の性能評価においても、BandPOは複雑な推論タスクで圧倒的な成果を残している。QwenやDeepSeekなどのモデルを使用した数学ベンチマークでは、広く利用されているGRPOフレームワークを明確に上回るスコアを記録した。探索の勾配を適切に維持することで、モデルの思考プロセスに豊かな多様性が保たれるからだ。このブレイクスルーは、オープンソースコミュニティが高性能な推論モデルを構築するための強力な基盤となるだろう。