AIエージェントが「推論のループ」から抜け出せない理由
- •LLMエージェント特有の故障モード「テンプレート崩壊」を解明
- •推論品質を正確に追跡する相互情報量プロキシを導入
- •SNR認識フィルタリングにより計画やコーディングタスクの性能が向上
自律型AIエージェントは、世界と対話し段階的にタスクを遂行するシステムであり、その学習には主に強化学習が用いられる。従来、これらのエージェントの安定性はエントロピーによって測定されてきた。これは、エージェントの推論選択がどれほど多様で予測不能であるかを示す指標である。
しかし、研究者たちはこのアプローチに「テンプレート崩壊」という危険な欠陥があることを突き止めた。これは、エントロピーの指標上では多様な挙動を示していても、実際には特定の状況に適合せず、固定化された無思考のテンプレートを繰り返している状態を指す。エージェントはあたかも有能であるかのように振る舞っているが、入力された独自の情報は無視されているのである。
研究チームは、この問題を診断するために新たな戦略を提示した。単一入力内の多様性だけを測るエントロピーに頼るのではなく、異なる入力に対して推論がどう変化するかを捉える相互情報量を取り入れるべきだという主張だ。これにより、エージェントが問題を深く考えているのか、単にスクリプト化されたダンスを踊っているだけなのかを見極める試験が可能となった。
テンプレート崩壊を解決するため、チームは学習過程における信号対雑音比(SNR)に注目した。報酬信号が弱く一貫性がない場合、モデルは入力固有の推論経路を学習できず、汎用的なパターンに依存する傾向がある。この「ノイズ」により、モデルを安定させるための数学的ペナルティが、本来必要な推論の多様性を抑え込んでしまうことが判明した。
これに対抗するため開発されたのが「SNR認識フィルタリング」である。この手法は、モデルが学習すべき強力で明瞭な信号を持つ訓練データを選択し、テンプレート崩壊を招く混乱したノイズを効果的に排除する。この手法は、計画、数学的推論、Webナビゲーション、コーディングを含む広範なベンチマークで性能を大きく向上させた。
この研究が示唆するのは、マルチターンのLLMエージェントを悩ませる不安定さは、アーキテクチャの失敗というよりも、強化学習における「信号」の評価と選別の失敗だということだ。今後、自律型システムが進化する中で、単なるエントロピーを超えた評価指標を採用することは、AIが真の問題解決能力を持つために不可欠な過程といえる。