この記事の要点は？

MITの研究チームが、LLMの「探索の崩壊」を防ぐ独自性認識強化学習を導入 AIによるクラスタリングで希少な推論戦略を評価し、回答の多様性を向上させる新手法精度を維持したまま、数学や医学のベンチマークでpass@kの性能を大幅改善

MIT、LLMの創造性を高める新たな強化学習を開発

•MITの研究チームが、LLMの「探索の崩壊」を防ぐ独自性認識強化学習を導入
•AIによるクラスタリングで希少な推論戦略を評価し、回答の多様性を向上させる新手法
•精度を維持したまま、数学や医学のベンチマークでpass@kの性能を大幅改善

現在のLLMにおける強化学習には、「探索の崩壊（exploration collapse）」と呼ばれる大きな壁が存在する。モデルが正解を見つける能力を高める過程で、特定の思考パターンを繰り返すようになり、創造的な別解を探る力を失ってしまう現象だ。医学や物理学といった高度な専門分野では、一つの問いに対して複数の妥当な解決策を見出す能力が極めて重要であり、この制約はAIの進化を妨げる要因となっていた。この停滞を打破するため、マサチューセッツ工科大学（MIT）の研究チームは「Uniqueness-Aware Reinforcement Learning（独自性認識強化学習）」を開発した。この手法は、単に正解を導き出したことに報酬を与えるのではない。別のAI判定者が、単なる言い回しではなく解法の「戦略」に基づいて回答を分類し、希少な戦略を用いたグループに対してより高い報酬を与える。いわば「独創性へのボーナス」を付与することで、モデルが未知の領域へ踏み出す動機付けを行う仕組みだ。多様なベンチマークによるテストの結果、初回回答の精度を損なうことなく、複数回の試行で正解を導き出す能力（pass@k）が大幅に向上した。解法の全プロセスにおいて多様性を優先するこのアプローチは、多面的な推論が求められるタスクにおいて、AIがより柔軟で創造的な解決策を提示するための確かな道筋を示している。

MIT、LLMの創造性を高める新たな強化学習を開発

タグ