Activation Oracles:AIの思考を解読する新手法
2026年1月25日 (日)
- •AnthropicがAIの内部信号を自然言語で解釈する「Activation Oracles」を開発した。
- •微調整されたモデル内の隠された知識や不整合を特定することに成功した。
- •学習データの量と多様性に応じて、性能が予測通りに向上することを確認した。
Anthropicの研究員であるAdam Karvonen(アダム・カルボネン)氏やJames Chua(ジェームズ・チュア)氏らは、AIの「ブラックボックス」問題を解決するための新手法「Activation Oracles(AO)」を開発した。これは、複雑な数学を用いてAIの思考を推測する代わりに、別のLLMを訓練して、対象となるAIの内部的なニューラル活性化(処理層における数学的信号)を読み取らせる手法である。これらの信号をテキストのような新しい入力形式として扱うことで、オラクル(神託)は、特定のデータで直接訓練されていなくても「このモデルが隠している秘密の言葉は何か」といった質問に答えることができる。 研究チームは、これらのオラクルが汎化において驚異的な能力を持つことを発見した。つまり、未経験のタスク向けにファインチューニングされたモデルであっても分析が可能である。例えば、「タブー」ゲームにおいて、対象モデルが決して明かさないよう指示されていた秘密の言葉を、オラクルは特定することに成功した。これは、AOが人間の開発者が見逃しがちな隠れた知識や不整合を暴き出せる可能性を示唆している。 特定の「歯車」を調べる従来のメカニズム解釈性とは異なり、AOはより柔軟で自然言語ベースのアプローチを提供する。計算コストは単純なツールより高いものの、多様なデータセットで訓練するほど性能が向上する。これは、モデルを一般公開する前にその挙動の理由を理解し、AI セーフティを向上させるための強力な新ツールとなる。