言語モデルの重みスケーリングを解放する「学習可能乗数」の提案
- •TIIの研究チームは、重み減衰による性能低下を回避するため、行列レベルで重みを調整する「学習可能乗数」を提案した。
- •本手法は行列、行、列単位でスカラー値を動的に学習し、固定されたmuP設定よりも柔軟なモデルスケーリングを可能にする。
- •Adam最適化においてMuonへの移行に匹敵する性能向上を確認しており、ハイパーパラメータ調整のコスト削減にも寄与する。
現在、大規模言語モデル(LLM)のトレーニングにおいては、重みの極端な増大を抑制し学習を安定させるために重み減衰(Weight Decay)という正則化手法が一般的に用いられている。しかし、アラブ首長国連邦(UAE)の政府系研究機関である技術革新研究所(TII)の研究チームが発表した最新の論文によれば、この従来の慣行がモデルの潜在的な能力を十分に引き出すことを妨げている可能性がある。具体的には、重み減衰と学習過程で生じる勾配ノイズが干渉し合い、重みノルムが「ブラウン運動的な膨張」を経て、本来あるべき最適なポイントではない場所で平衡状態に達してしまうことが判明した。研究チームはこの不適切な平衡を打破するために、重みのスケールを自由化する「学習可能乗数(Learnable Multipliers)」を提案し、モデルが自律的に重みの強弱を調整できる仕組みを導入した。
本手法の核心は、行列全体だけでなく、行単位や列単位といった多角的なレベルで学習可能なスカラー乗数を組み込む点にある。これは、大規模モデルの挙動を予測し最適化する手法として注目されているmuP(Maximal Update Parametrization)を進化させた、より汎用性の高いフレームワークと言える。従来のmuP環境下では、最適なパフォーマンスを得るために各層の乗数を手動で厳密に調整する必要があり、そのための計算コストは無視できないほど大きかった。一方、学習可能乗数はトレーニングデータに反応して動的に値を変化させるため、開発者が複雑なハイパーパラメータ調整に奔走することなく、自動的に最適なスケーリングが実現される。この柔軟性こそが、固定的なパラメータ設定に依存してきた従来の手法に対する大きな優位性となっている。
実証実験の結果、学習可能乗数を採用したモデルは、広範な下流タスクの評価において従来のモデルを上回る優れた成績を収めた。特に注目に値するのは、汎用的な最適化アルゴリズムであるAdamを使用した際に、より先進的で特化した最適化手法であるMuonに匹敵するほどの性能向上が確認されたことである。この発見は、高度なアルゴリズムの選定と同等、あるいはそれ以上に、重みの適切なスケーリングがモデルの学習効率に寄与することを裏付けている。計算資源の制約が厳しい現代のAI開発において、ハイパーパラメータ調整の負担を軽減しながらモデルの表現力を最大化するこの手法は、今後の効率的な大規模言語モデル構築における重要な基盤技術となるに違いない。