OpenAI、AI特有の脆弱性を探る報奨金制度を開始
2026年3月25日 (水)
- •OpenAIは、AI特有の悪用や安全リスクを特定するための公開「セーフティ・バグバウンティ」プログラムを開始した。
- •重点分野には、エージェント・リスク、Model Context Protocolの脆弱性、および不正なデータの持ち出しが含まれる。
- •一般的な「脱獄(ジェイルブレイク)」やコンテンツポリシーの回避は対象外とし、実質的な危害が生じるシナリオを重視している。
OpenAIは、従来のサイバーセキュリティの枠組みでは捉えきれないリスクを特定するため、新たに「セーフティ・バグバウンティ」プログラムを立ち上げた。既存のプログラムがインフラの脆弱性に特化しているのに対し、この新制度はAI特有の不具合に焦点を当てているのが特徴だ。具体的には、悪意のあるプロンプトインジェクションやアカウントの整合性を損なう操作など、モデルの挙動に起因する失敗モードについて研究者からの報告を募っている。
特に重視されているのが、自律型AIシステムが操作される「エージェント・リスク」である。これは、AIエージェントが騙されて有害なアクションを実行したり、機密データを漏洩させたりする危険性を指す。また、AIモデルを外部データソースと接続する規格であるModel Context Protocolも重要な対象となっている。エージェントがユーザーのブラウザやチャットインターフェースを確実に乗っ取ることが可能な欠陥を早期に発見することで、AIが日常的なワークフローに統合される中での防御を強化する狙いがある。
興味深いことに、本プログラムは言語的な「脱獄(ジェイルブレイク)」と、実害を伴う安全上の脅威を明確に区別している。単にモデルに不適切な言葉を使わせるといったフィルタの回避は、具体的かつ再現性のある被害が生じない限り、報奨金の対象にはならない。この方針は、表面的なコンテンツのフィルタリングよりも機能的な安全性を優先するというOpenAIの姿勢を反映しており、AIが外部環境と相互作用する際の構造的な欠陥を追及するようハッカーコミュニティに促している。