SAEはランダムな基準値を超えられるか
2026年2月18日 (水)
- •SAEは高い再構成性能を示す一方で、グラウンドトゥルースの特徴をわずか9%しか復元できていないことが判明した。
- •ランダムに初期化された未学習のモデルが、因果編集などの主要な解釈可能性ベンチマークで訓練済みSAEと同等のスコアを記録した。
- •現在の評価指標では、学習された真の特徴と高次元のランダムノイズを区別できていない可能性が指摘されている。
ニューラルネットワークのブラックボックスを解明する「万能鍵」として期待されてきたスパース・オートエンコーダー(SAE)。複雑な内部状態を人間が理解可能な特徴へと分解することで、透明性が高く制御可能なAIの実現が約束されていた。しかし、最新の研究はこの前提に疑問を投げかけている。SAEは高い再構成スコアを誇るものの、既知のグラウンドトゥルース(正解データ)と比較すると、意図した特徴のわずか9%しか復元できていないことが明らかになったのだ。
特に衝撃的なのは、重みをランダムに初期化したまま学習を行わない「フローズン」ベースラインを用いた検証結果である。驚くべきことに、このランダムなモデルが、出力変更のための因果編集やスパース・プロービングといった指標において、十分に訓練されたSAEとほぼ遜色ない性能を示した。これは、現在のAI解釈可能性における評価基準が根本的に欠陥を抱えている可能性を示唆している。つまり、モデルが真に概念を「学習」したのか、それとも大規模モデル特有の幾何学的性質を利用しているだけなのかを判別できていないのである。
この「サニティ・チェック(健全性確認)」は、メカニスティックな解釈可能性を追求するコミュニティにとって重要な警鐘となるだろう。AIを理解するためのツール自体が誤解されていたならば、AIの安全性を担保する道筋も不透明なままだ。研究チームは今後、単なる数学的な近道による高精度な再構成ではなく、SAEが真の内部メカニズムを特定していることを証明できる、より厳格なベンチマークの策定を提唱している。