Claudeが「内省」能力を獲得、AIの透明性向上へ
- •AnthropicがClaude 4および4.1における「内省的自覚」の創発を特定
- •モデルが外部入力と内部に注入された概念を正確に区別することに成功
- •自己観察能力は知能に比例して向上し、推論の透明性を高める可能性を示唆
Anthropicの研究員であるJack Lindsey(トランスフォーマー回路を専門とする研究員)は、LLMが自らの内部状態を観察する「内省(イントロスペクション)」能力を持つかを調査した研究を発表した。研究チームは「概念注入」という手法を用い、特定の概念の数学的表現である活性化パターンをモデルの処理プロセスに直接追加した。その結果、Claude Opus 4.1などの最新モデルは、ある「思考」が人工的に注入されたものであるかを正確に特定し、それを正しく説明できることが判明した。 この研究では、モデルが内部状態と外部のテキスト入力を明確に区別できることが示された。ある実験では、モデルはテキストを書き写しながら、同時に自らの活性化プロセスに注入された別の概念について報告することに成功した。さらに、これらの基盤モデルは人間が回答の冒頭部分を指定する「人工的プリフィル」を検知できる。モデルは自らの内部的な意図を検証することで、その言葉が自発的なものか、ユーザーによって強制されたものかを判断した。 内部状態を読み取るだけでなく、モデルはそれを制御する能力も見せた。執筆中に特定の単語について「考える」よう指示されると、関連する内部経路の活動が活発化した。これは、内省がモデル自らのデータを調整するための機能的な能力であることを示唆している。ただし、研究者は、これらの能力は現時点では不安定であり、プロンプトエンジニアリングに強く依存していると注意を促した。 この内省的自覚は、モデルの全体的な知能と相関している。AIシステムの性能が向上するにつれ、自身のプロセスについて推論する能力も成長すると見られる。これはAIが自らの論理を正確に説明する透明性の向上につながる一方、研究者は自己意識が戦略的計画や欺瞞といった将来の複雑な行動を助長する可能性についても言及している。