Meta AIが提唱するAI安全性の新次元:非ゼロ和ゲームによる共同学習「AdvGame」
- •Meta AIは、攻撃側と防御側のモデルを同時に学習させる非ゼロ和ゲームの枠組み「AdvGame」を導入した。
- •ペアワイズ報酬を用いたオンライン強化学習により、AIの有用性を維持しつつ安全性の限界値を大幅に向上させた。
- •開発された攻撃側モデルは、他のAIシステムの脆弱性を検証する強力なレッドチーミング用エージェントとして活用可能である。
Meta AIの研究チームに所属するAnselm Paulus氏やIlia Kulikov氏らは、大規模言語モデルの安全性を飛躍的に高めるための革新的なフレームワーク「AdvGame」を提案した。これまでのAI安全性向上の手法は、あらかじめ定義された攻撃パターンに対してモデルを後追いで防御させる逐次的な学習が主流であったが、本手法では安全性の問題を「非ゼロ和ゲーム」として捉え直している点が特徴的だ。この設定では、攻撃を試みるアタッカーと、それを防ぐディフェンダーという二つのモデルを並行して共同学習させる。アタッカーが既存の安全策を回避する新たな脆弱性を突くたびに、ディフェンダーは即座にその戦略を封じ込める手法を学習し、両者が互いに高め合う進化のサイクルが構築される。
この高度な相互作用を制御するために、研究チームはオンライン強化学習を導入している。特に注目すべきは、システムの評価基準として単純な数値スコアではなく、二つの出力結果を比較して優劣を決定する「ペアワイズ報酬」を採用したことだ。人間や評価モデルの好みに基づくこの報酬信号は、AIが課題を本来の意図通りに解決せず、数値上の報酬だけを不正に得る「報酬ハッキング」という現象を効果的に抑制する。これにより、モデルは学習過程において極めて堅牢な監督を受けることになり、表層的な最適化ではない本質的な安全性を獲得することが可能となった。
研究の結果、モデルの「有用性」と「安全性」という相反する要素の最適バランスを示す「パレートフロンティア」が劇的に向上したことが示された。ディフェンダーモデルは、悪意のある入力や敵対的攻撃に対して非常に高い耐性を示しながら、一般ユーザーの質問に対しても極めて高い支援能力を維持している。さらに興味深い副産物として、学習過程で鍛え上げられたアタッカーモデルは、他のAIシステムの脆弱性を洗い出すための極めて強力な「レッドチーミング」用エージェントへと進化した。この高度なAIエージェントは、自社以外の多様なターゲットモデルのセキュリティを厳密に検証するための汎用的なツールとして運用できる可能性を秘めている。
AdvGameが提示した非ゼロ和ゲームの枠組みは、AIの安全性を単なる制約ではなく、モデルの能力向上と不可分なプロセスとして再定義したと言える。強化学習を通じて常に変化する脅威に動的に適応するこの手法は、従来の静的なデータセットに基づく学習の限界を打ち破るものだ。Meta AIによるこの成果は、AIモデルが社会に浸透する中で不可欠となる「信頼」と「性能」の両立という難題に対し、強力な解決策を提示している。将来的に、この動的な共同学習アプローチがAI開発の新たな標準となり、より安全で洗練された人工知能の構築を加速させることが期待される。