LLM強化学習を安定させる新アルゴリズム「VESPO」
- •VESPOは重要度サンプリングの分散を抑え、LLMの強化学習プロセスを劇的に安定化させる。
- •従来のトークンレベルのクリッピングなど、ヒューリスティックな手法の必要性を排除した。
- •標準的な高密度モデルと混合専門家モデル(MoE)の両方で一貫した性能向上を確認。
大規模言語モデル(LLM)を人間の好みに合わせる手法として強化学習(RL)は標準となっているが、そのプロセスは非常に脆弱であることで知られている。主な原因は「方策の鮮度低下(Policy staleness)」にあり、学習中のモデルとデータを生成するモデルが急速に乖離することで、学習が失敗する数学的な不安定さが生じてしまうのだ。従来、研究者は数値を管理可能な範囲に抑えるためにトークンレベルのクリッピングや長さの正規化といった「ハック」を用いてきたが、これらはしばしばバイアスを導入し、モデルの学習に必要な重要な情報を失わせる原因となっていた。
そこで登場したのが、郭斌申(Guobin Shen)氏(研究員)らによって提案されたVESPO(Variational Sequence-level Soft Policy Optimization)である。この新しいフレームワークは、安定化の問題を場当たり的な手法の寄せ集めではなく、数学的な最適化の課題として捉えている。特定の「リシェイピング・カーネル」をテキストのシーケンス全体に直接適用することで、データを細切れにしたり人工的な制限を加えたりすることなく、分布のズレを補正する。これにより、システム内の各パーツが異なる速度で動作する高速な非同期計算環境において、トレーニングデータが著しく古い状態であっても安定性を維持することが可能になった。
実際、インフラの拡張性において極めて印象的な結果が得られている。VESPOは、標準的な手法よりも最大64倍高い「鮮度低下率」においても揺るぎない安定性を保った。また、従来の高密度モデルだけでなく、より複雑な混合専門家モデル(MoE)においても、特に難解な数学的推論タスクで性能向上を実現し、その汎用性を証明した。現在のモデルの状態と完全には一致しないデータでの学習に統一された理論的基盤を与えることで、VESPOはより効率的で堅牢なモデル開発への道を開いたと言える。