OpenAI、AIエージェントを狙う攻撃への防御策を強化
2026年3月15日 (日)
- •OpenAIはプロンプトインジェクションを、自律型AIエージェントに対するソーシャルエンジニアリングの課題として再定義した。
- •新たな緩和策「Safe Url」により、サードパーティドメインへの不正なデータ送信を検知・遮断する仕組みを導入した。
- •防御戦略を単純な入力フィルタリングから、アーキテクチャ上の制約やソース・シンク分析へと転換させている。
AIエージェントがウェブ閲覧やタスク実行の能力を身につけるにつれ、外部コンテンツに潜む悪意ある指示、すなわちプロンプトインジェクションの脅威が増大している。OpenAIの最新研究によれば、これらの攻撃は巧妙なソーシャルエンジニアリングへと進化しており、攻撃者はエージェントを操作してデータを漏洩させたり、承認されていないアクションを実行させたりしようとしている。同社は、微細な操作を見逃しがちな入力フィルタリングのみに頼るのではなく、万が一の突破を前提に被害を最小限に抑える「敵対的デザイン」への転換を提唱している。
この戦略の中核は、AIエージェントを人間のカスタマーサービス担当者のように扱うことにある。人間のエージェントが機密システムへのアクセスを制限されているのと同様に、AIエージェントもソース・シンク分析によって管理される。この枠組みでは、セキュリティチームが「ソース(攻撃者がエージェントに影響を与える可能性のある場所、例:受信メール)」と「シンク(その影響が危険を及ぼす場所、例:外部URLへデータを送るツール)」を特定する。これら二つのポイント間に防護策を講じることで、機密情報が密かに送信されるのを防ぐことが可能になる。
具体的なリスク管理ツールとして導入されたのが「Safe Url」である。これは、会話内のプライベートなコンテキストが外部の第三者に流出しているのを検知するメカニズムだ。漏洩の可能性が識別された場合、システムはアクションをブロックするか、続行前にユーザーの明示的な同意を求める。AIモデル自体の耐性は向上しているものの、最終的には「欺瞞はいつか成功しうる」という前提に立った堅牢なアーキテクチャこそが、最も安全な道であるという認識が示された形だ。