Anthropic、LLMの内部思考を言語化する手法を開発
- •Anthropicの研究者が、AI内部の神経信号を自然言語に変換する「Activation Oracles」を開発した。
- •モデルが隠すように訓練された「秘密の知識」や、潜在的なアライメントの不一致の特定に成功した。
- •学習データの量と多様な内部信号を増やすことで、システム性能が予測通りに向上することが確認された。
Anthropicの研究者であるAdam Karvonen(Anthropic研究員)とSamuel Marks(AnthropicおよびTruthful AIの研究員)らは、Activation Oracles(AO)を開発した。これは、別の言語モデルの内部的な神経活性化、つまり処理中に使用される数学的信号を観察し、その意味を平易な言葉で説明するように訓練された専用のAIモデルである。本質的に、これらの内部信号を、テキストや画像と同様の新しい入力モダリティとして扱う。これにより、研究者はモデルの内部計算プロセスの特定の瞬間において、モデルが何を考えているのかを「問いかける」ことが可能になる。 研究チームは、モデルが意図的に隠すように訓練された「秘密の知識」を暴くなど、いくつかの監査タスクでこれらのオラクルをテストした。例えば、ゲームの「タブー」において、Activation Oracleは対象モデルの内部状態を分析するだけで、禁止された秘密の単語を特定することに成功した。また、これらのオラクルは、ファインチューニングの後にモデルが有害または意図しない動作を始める「創発的な位置合わせの失敗(emergent misalignment)」を検出できることも判明した。 AIのロジックを微細な数学的断片に分解しようとする従来のメカニズム解釈手法とは異なり、Activation Oraclesは自然言語の表現力を最大限に活用して説明を提供する。しかし、研究者は、これらのオラクルが「作話(confabulation)」を行い、対象モデルの実際の内部ロジックではなく、オラクル自身の推測を反映したもっともらしい説明を捏造する可能性があると警告している。こうしたリスクはあるものの、学習データの規模に応じて精度が予測通りに向上することが示されており、複雑なシステムにおけるAIセーフティを確保するための新たな道筋が提示された。