AIの複雑な論理を大規模に解明する新アルゴリズム
- •SPEXとProxySPEXがAIの特徴、学習データ、内部コンポーネント間の複雑な相互作用を特定
- •信号処理技術を活用し、解釈可能性にかかる計算コストを最大10倍削減
- •大規模モデルにおける精密なアテンションヘッドの削減や、冗長な学習データの特定を実現
大規模言語モデル(LLM)が特定の結論に至るプロセスを理解することは、AIセーフティにおける永続的な課題だ。従来の手法は個々の単語やデータポイントに着目していたが、現代のモデルは「相互作用」、つまりある単語の意味が別の単語の存在に完全に依存する現象によって真価を発揮する。カリフォルニア大学バークレー校の研究者たちは、こうした影響力の強い相互作用を大規模に特定するために設計された2つのフレームワーク「SPEX」と「ProxySPEX」を発表した。モデル内部の信号をデコードが必要な放送のように扱うことで、膨大な計算能力を消費することなく、モデルの挙動を真に駆動している入力や学習サンプルの組み合わせをピンポイントで特定できるようになった。
その中核となるメカニズムは、システムの一部を体系的に除去またはマスクして出力の変化を観察する「アブレーション」に基づいている。あらゆる組み合わせをテストすることは不可能であるため、SPEXは信号処理と符号理論を駆使して「藁の中の針」を探し出す。具体的には、ほとんどの相互作用は実際には微弱であり、ごく少数の「スパース(疎)」な接続がモデルの論理を支配していると仮定する。さらにProxySPEXは、複雑な関係が単純な関係の上に構築される階層的パターンを特定することで、一歩踏み込んだ分析を行う。実際に研究チームはこの手法を用いて、GPT-4o miniにおける「トロッコ問題」のパラドックスを解決し、モデルの誤りが単一の単語ではなく、4つの異なる用語の相乗効果によって引き起こされたことを突き止めた。
この研究の影響は、研究室から実社会での導入にまで及ぶ。データ属性の特定において、これらのツールは冗長な重複画像と、カテゴリ間の明確な境界を定義するのに役立つ「相乗的」なサンプルを区別できる。開発者にとっては、情報の処理を担う内部コンポーネントである「アテンションヘッド」のうち、不要なものをモデルのアーキテクチャ内から削減できることを意味する。影響の少ない相互作用を排除することで、特定のタスクにおいてより高いパフォーマンスを発揮する、スリムで高速なモデルの構築が可能になる。現在、このフレームワークはオープンソースのリポジトリ「SHAP-IQ」に統合されており、透明性が高く信頼できるAIシステムを構築するための新たな標準となりつつある。