マイクロソフト、AIの「バックドア」検出技術を開発
- •マイクロソフトの研究チームが、オープンウェイト型モデルに潜む「スリーパーエージェント」を特定する3つの技術的兆候を発見。
- •再学習を必要とせず、アテンションのパターンやデータ漏洩を利用して悪意のあるトリガーを特定する新しいスキャナーを開発。
- •LoRAやQLoRAでファインチューニングされたモデルを含む、多様なアーキテクチャにおいてその有効性が証明された。
マイクロソフトのセキュリティ研究チームは、大規模言語モデル (LLM) の重みの中に「バックドア」と呼ばれる隠しコマンドを埋め込む「モデル・ポイズニング」という巧妙な脅威を特定する画期的な手法を発表した。この「スリーパーエージェント」は、通常の利用時には正常に動作するものの、特定のトリガーとなる言葉やフレーズに遭遇した瞬間に悪意のある動作を実行する。こうした挙動は外部コードではなくモデル内部のパラメータに直接書き込まれているため、従来の安全フィルターをすり抜けることが多く、標準的な評価では根絶することが極めて困難であった。
チームは、ポイズニングされたモデルを特定するための3つの重要な「シグネチャー(兆候)」を明らかにした。第一に、入力の重要性を重み付けするメカニズムであるアテンションが、特定のトリガーに対して「二重の三角形」状に集中する特有のパターンと、生成されるテキストのランダム性を示すエントロピーの低下が観察された。第二に、バックドアが設置されたモデルは訓練データを漏洩する傾向があり、これを利用してモデル自身にポイズニングのトリガーを白状させることが可能である。さらに、これらのバックドアは「曖昧」な性質を持ち、断片的なトリガーでも反応するため、皮肉にも防御ツールによる追跡を容易にしている。
これらの知見に基づき、マイクロソフトはオープンウェイト型モデルを分析する実用的なスキャナーを開発した。このツールは単純な推論プロセスのみで分析を行い、高コストな計算や攻撃者の意図に関する事前の知識は一切不要だ。現在はモデルの重みにアクセスできる場合に限定されるなどいくつかの制約はあるが、AIセキュリティにおける大きな進歩といえる。これにより、企業や規制当局は第三者のモデルを導入する前にその安全性を検証し、AIアプリケーションの基盤となるモデルの信頼性をスケーラブルな方法で確保できるようになった。