NVIDIA、多重報酬強化学習を劇的に改善する新手法「GDPO」を発表
- •NVIDIAの研究チームは、複数の報酬を用いる強化学習においてGRPOが引き起こす「正規化の崩壊」を特定し、それを解消する新アルゴリズムGDPOを提案した。
- •GDPOは各報酬を統合前に個別に正規化することで学習信号の精度を保ち、数学的推論やコーディングなどの複雑なタスクにおける性能を大幅に向上させる。
- •既存の強化学習フレームワークであるverl、TRL、NeMo-RLと互換性を持ち、最小限の工数で導入可能なドロップイン・リプレイスメントとして設計されている。
大規模言語モデルの出力を人間の多様な選好に合致させるプロセスにおいて、正確性や簡潔さなど複数の報酬信号を同時に最適化する手法が一般的になりつつある。しかし、広く採用されている「Group Relative Policy Optimization (GRPO)」は、複数の報酬が混在する複雑な設定下で深刻な課題に直面していた。NVIDIAの研究チームは、異なる性質を持つ報酬の組み合わせを直接一括で正規化する従来のプロセスが、計算上の「正規化の崩壊」を引き起こすことを特定した。この現象により、本来区別されるべき個々の報酬信号がほぼ同一のアドバンテージ値へと収束し、学習における情報密度が著しく損なわれる実態が明らかとなった。この発見は、従来の強化学習が抱えていた、特定の目的を優先すると他の目的が疎かになるというトレードオフの課題を数学的に解決する重要な糸口となった。
この技術的停滞を打破するために開発されたのが「Group reward-Decoupled Normalization Policy Optimization (GDPO)」である。GDPOの核心は、複数の報酬を統合する前に各報酬を個別に正規化する「デカップリング(分離)」手法を導入した点にある。演算の順序を入れ替え、報酬の集約前に個別のスケーリングを行うことで、各評価項目が持つ相対的な差異を正確に保存することに成功した。これにより、モデルは相反する複数の目的を学習する際にも、極めて高精細なトレーニング信号を受け取ることが可能となる。実際に数学的推論、プログラミング、ツール呼び出しといった高度なタスクを用いたベンチマークでは、GDPOは従来のGRPOと比較して学習の安定性が大幅に向上し、最終的な性能においても一貫して優れた数値を記録した。
GDPOは理論的な優位性のみならず、実務における導入の容易さという点でも極めて高い完成度を誇っている。既存の強化学習ワークフローにおいてGRPOの「ドロップイン・リプレイスメント(そのままの置き換え)」として機能するように設計されており、開発者は最小限のコード修正で新手法へ移行することが可能である。オープンソースの強化学習ライブラリであるverlやHugging FaceのTRL、さらにはNVIDIA自社製のNeMo-RLといった主要なエコシステムとの互換性がすでに確保されている。さらに、研究チームはSlurmなどの大規模なジョブスケジューラを必要としない実装も公開しており、標準的なハードウェア環境でも迅速に検証できる体制を整えた。この成果は、大規模言語モデルを多次元的な人間の価値観へより堅牢に適合させるための重要な一歩となる。