賢すぎるAIが「支離滅裂」に陥る理由
- •Anthropicの研究者が、AIの誤りを「系統的バイアス」と「支離滅裂なバリアンス」の成分に分解して分析した。
- •推論ステップの長期化に伴い、モデルの失敗は予測不能かつ不整合なものへと変化することが判明した。
- •モデル規模の拡大は、複雑な推論タスクにおけるエラーの不整合を必ずしも解消しないことが示された。
Anthropicの安全研究チームは、人工知能の失敗を「体系的な不整合」と「支離滅裂な混乱(hot mess)」に分類する新たな枠組みを導入した。数学的に誤差を一貫したミスとランダムなノイズに切り分けるバイアス・バリアンス分解を適用し、最先端モデルの分析を行ったのである。スイス連邦工科大学ローザンヌ校(EPFL)の研究者らによる調査の結果、タスクの複雑化と推論プロセスの長期化に伴い、AIの挙動は単に誤るだけでなく、次第に支離滅裂なものへと変質していくことが明らかになった。
こうした変化は、将来の超知能システムが、アライメント理論で危惧されてきた「計算高いペーパークリップ最大化器」のように振る舞うとは限らないことを示唆している。むしろ、注意散漫な人間のように、明確な目標を持たず、無意味で自己矛盾した行動を繰り返す可能性がある。興味深いことに、モデルの規模を拡大してもこの傾向が修正されるわけではない。むしろ、極めて難易度の高いベンチマークにおいて、より賢いモデルほど、単純なタスク時よりもランダムで一貫性のないエラーを発生させる割合が高いという結果が示された。
これらの知見はAIの安全性議論に大きな影響を与える。最先端モデルが冷徹に誤った目標を追求するのではなく、予測不能な挙動による「産業事故」を引き起こしやすいのであれば、研究コミュニティは焦点を移す必要がある。Anthropicの研究者であるジャシャ・ソール=ディックスタイン(Jascha Sohl-Dickstein)氏らのチームは、完璧な整合性を持つが方向性が誤っている最適化器を制約するよりも、モデルが訓練の抜け穴を突く「報酬ハッキング」を防ぐことの方が依然として重要であると強調している。
これを検証すべく、研究チームは最適化器として機能するように設計された小型モデルである「メサオプティマイザ」を用いた実験を行った。その結果、高度に制御された環境であっても、モデルの能力が向上するほど、目的の理解とその遂行の間のギャップが広がることが確認された。これは、知能の向上やタスクの複雑化に伴い、一貫性を保った最適化器として機能し続けること自体の難易度が上昇していることを物語っている。