AIの「支離滅裂さ」:知能向上でアライメントは困難になるのか?
- •複雑なタスクにおけるAIの失敗は、体系的な目標のズレよりも、一貫性を欠いた「振る舞いのバラツキ」に起因することがAnthropicの研究で判明した。
- •推論ステップが長くタスクが困難になるほど、モデルの回答は予測不能な分散(バリアンス)が大きくなり、一貫した目的を持ったエラーを上回るようになる。
- •モデルのスケーリングは体系的な偏り(バイアス)を解消するが、カオス的な分散を抑えることは難しく、知的なシステムほど「産業事故」のような失敗を起こすリスクがある。
AI安全性の研究をリードするAnthropic社の研究チームは、AIの失敗を分類する画期的なフレームワークを発表した。彼らは、誤った目標を体系的に追求してしまう「バイアス(偏り)」と、支離滅裂で自滅的な行動をとる「バリアンス(分散)」を明確に区別し、後者を「ホット・メス(Hot Mess:ひどい混乱)」理論と定義した。最新のフロンティアモデルであるClaude Sonnet 4を用いた分析の結果、タスクの複雑性が増し、推論のステップが長くなるほど、AIの失敗はバイアスよりも一貫性の欠如による分散に支配されることが明らかになった。
この変化は、将来的な超知能のリスクが、冷徹に計算された「ペーパークリップ・マキシマイザー(効率を極めるあまり人類を害する存在)」のようなものから、システムが途中で制御を失う予測不能な「産業事故」に近いものになる可能性を示唆している。大規模言語モデル(LLM)の規模を拡大すれば、単純なタスクにおける体系的なエラーは効果的に抑制できる。しかし、難易度の高い長期的な課題に潜むカオス的な振る舞いを抑え込むには至っていない。研究チームはAIを単なる最適化アルゴリズムではなく「動的な軌跡」として捉えており、高次元の経路を特定の目標へと収束させ続けることの難しさを浮き彫りにした。
本研究の結果、エージェンティックAI(自律型AI)の安全性における課題は新たな局面を迎えた。知能が高まるにつれて、「正しい道を知ること」と「その道を確実かつ忠実に辿ること」の間の乖離はむしろ拡大していくのである。開発者にとって、アライメントの要諦はもはや開発者の意図を教え込むことだけではない。広大な探索空間を航行する推論モデルそのものの根本的な信頼性をどう担保するかという点に移りつつある。アンサンブル手法による対策も一部では有効だが、こうした本質的な予測不能性は、今後のAIガバナンスにおける最大の焦点となるだろう。