OpenAI、AI安全性のバグバウンティを開始
2026年3月31日 (火)
- •OpenAIがAIの悪用や体系的な乱用リスクを対象とした、公開の安全性バグバウンティプログラムを開始した。
- •エージェントの乗っ取りやデータの不正持ち出し、独自の推論情報の漏洩といった「AI特有」の脅威に焦点を当てる。
- •従来の技術的脆弱性や単純なジェイルブレイクは、この安全性特化型の取り組みからは除外されている。
OpenAIは、従来のセキュリティ監査では捕捉しきれないリスクを特定するため、専用の「安全性バグバウンティプログラム」を導入し、防御網を拡大している。既存のプログラムがコードの悪用といった技術的な脆弱性を扱う一方、この新制度は「AIネイティブ」な脅威を明確なターゲットとしている。具体的には、ユーザーに代わって自律的に行動するAIエージェントが、第三者の指示によって乗っ取られ、機密データの流出や未承認の操作を行うといった事態を想定している。
このプログラムは、モデルがウェブを閲覧し他のツールと相互作用する能力を高める中で、ソーシャルエンジニアリングやプロンプトインジェクションに対する攻撃対象領域が広がっていることを背景に、「エージェンティックなリスク」を強調している。加えて、OpenAIはモデル内部の推論プロセスに関連する独自情報の漏洩発見を奨励している。これは、将来のモデルにおいてその「思考パターン」を保護することが、モデルの重み自体を守ることと同様に極めて重要になっている証左と言える。
特筆すべき点として、AIに不適切な発言をさせたりフィルタを回避させたりする「ジェイルブレイク」は対象外とされており、これらは引き続き非公開のレッドチーミングを通じて対処される方針だ。安全性研究者のための専門領域を切り出すことで、同社はAIエージェントが日常の生産性ワークフローに組み込まれる過程で発生しうる、自動化された悪用や深刻なデータ侵害に対する堅牢な防衛策の構築を目指している。