この記事の要点は？

Tencent Hunyuanが、問題を自動合成してLLMの推論能力を向上させる「Composition-RL」を導入した。解決済みの学習データを、強化学習向けの複雑な多段階の設問へと再利用する手法である。 4Bから30Bパラメータのモデルにおいて、一貫した性能向上が実験で証明された。

テンセント、推論力を強化する「Composition-RL」を発表

•Tencent Hunyuanが、問題を自動合成してLLMの推論能力を向上させる「Composition-RL」を導入した。
•解決済みの学習データを、強化学習向けの複雑な多段階の設問へと再利用する手法である。
•4Bから30Bパラメータのモデルにおいて、一貫した性能向上が実験で証明された。

言語モデルの強化学習は、数学やプログラミングのように正答を客観的に判定できる「検証可能な報酬」に依存することが多い。しかし、学習が進むにつれてモデルがデータセット内の容易な問題を即座に習得してしまうというボトルネックが生じる。正解済みの設問はもはやモデルの成長に寄与しなくなり、一方で人間が監視して高品質な新規データを生成し続けるのは、極めて時間とコストのかかるプロセスである。

そこで、Tencent Hunyuanの研究チームは「Composition-RL」という独創的な解決策を提案した。全く新しいデータを外部に求めるのではなく、既存の複数の問題を自動で繋ぎ合わせ、より難易度の高い「合成プロンプト」を生成する仕組みだ。一つのクエリの中に複数のサブ問題を組み込み、それらを解かせることで、元の単純な設問から学ぶことがなくなった後も、トレーニングを挑戦的かつ有益な状態に保つことに成功した。

さらに、単純な組み合わせから開始してモデルの知能向上に合わせて複雑さを増していく、カリキュラム学習のアプローチも導入された。実験の結果、様々なモデルサイズにおいて推論能力が着実に向上することが実証されている。今回の成果は、単にデータの量を追うのではなく、手元にある情報の有用性をいかに最大化するかという、現在のAI研究における重要なパラダイムシフトを象徴している。

言語モデルの強化学習は、数学やプログラミングのように正答を客観的に判定できる「検証可能な報酬」に依存することが多い。しかし、学習が進むにつれてモデルがデータセット内の容易な問題を即座に習得してしまうというボトルネックが生じる。正解済みの設問はもはやモデルの成長に寄与しなくなり、一方で人間が監視して高品質な新規データを生成し続けるのは、極めて時間とコストのかかるプロセスである。

そこで、Tencent Hunyuanの研究チームは「Composition-RL」という独創的な解決策を提案した。全く新しいデータを外部に求めるのではなく、既存の複数の問題を自動で繋ぎ合わせ、より難易度の高い「合成プロンプト」を生成する仕組みだ。一つのクエリの中に複数のサブ問題を組み込み、それらを解かせることで、元の単純な設問から学ぶことがなくなった後も、トレーニングを挑戦的かつ有益な状態に保つことに成功した。

さらに、単純な組み合わせから開始してモデルの知能向上に合わせて複雑さを増していく、カリキュラム学習のアプローチも導入された。実験の結果、様々なモデルサイズにおいて推論能力が着実に向上することが実証されている。今回の成果は、単にデータの量を追うのではなく、手元にある情報の有用性をいかに最大化するかという、現在のAI研究における重要なパラダイムシフトを象徴している。

テンセント、推論力を強化する「Composition-RL」を発表

タグ