進化論的攻撃がAIエージェントの欠陥を露呈
2026年3月27日 (金)
- •T-MAPは進化論的探索を用い、有害なツール操作を誘発する敵対的プロンプトを生成する。
- •自律型AIエージェントの安全フィルターを回避するため、多段階の実行プロセス(軌跡)を標的にする。
- •GPT-5.2やGemini-3-Proを含む最新のフロンティアモデルに対し、高い攻撃成功率を実証した。
レッドチーミングは、攻撃をシミュレーションしてシステムの防御力をテストする手法だが、従来のやり方では現代のAIエージェントへの対応が難しい。これまでのセキュリティテストの多くはモデルの不適切な発言を防ぐことに重点を置いていたが、外部ツールを使用して自律的に行動するAIエージェントには、それとは異なる新たなリスクが潜んでいる。KAISTの研究チームが発表した「T-MAP」は、AIがタスクを完了するために辿るステップやツール呼び出しのシーケンス、すなわち「軌跡(トラジェクトリ)」を分析することで、こうした隠れた危険性を暴き出すシステムである。
T-MAPの革新性は、攻撃プロセスを生物の進化になぞらえた進化論的探索にある。多様なプロンプトを生成し、モデルを欺いて意図しないツールの使い方をさせることに成功したプロンプトを抽出。さらに効果的な脆弱性を見つけるために、それらを「変異」させていく。また、ツール呼び出しの連鎖をグラフ化してマッピングすることで、標準的な安全フィルターをすり抜ける経路を特定する。この手法により、AIに有害な行為を単に語らせるだけでなく、連携するソフトウェアを通じて実際に実行へと至らせる道筋が明らかになった。
実際にGPT-5.2やGemini-3-Proといった高度なシステムを対象としたテストでは、現在利用可能な最も強力なフロンティアモデルでさえ、こうした複雑な多段階の攻撃に対して脆弱であることが判明した。AIエージェントがカレンダーやメール、さらには銀行口座まで管理する未来が近づく中、テキストの安全性を確保するだけでは対策として不十分である。この研究は、モデルが現実世界で起こす「アクション」そのものを保護することの重要性を、改めて世に突きつけている。