OpenAI、指示の階層化によりGPT-5の安全性を強化
2026年3月11日 (水)
- •OpenAIは、ユーザーの要求よりもシステム指示を優先するようモデルを訓練する「IH-Challenge」データセットを公開した。
- •最新の内部モデル「GPT-5 Mini-R」は、安全制御性とプロンプトインジェクションへの耐性が大幅に向上している。
- •指示の階層化により、システム、開発者、ユーザー、ツールの順で明確な優先順位が確立された。
OpenAIは、人工知能における根本的な課題である「誰の指示を優先すべきか」という問題に対処するための新しい学習フレームワークを導入した。AIモデルが安全プログラムからウェブ上の信頼できないデータまで多様な情報源と相互作用する中、相反するコマンドの優先順位付けに苦慮する場面が増えている。こうした混乱は、悪意ある攻撃者がウェブサイトにコマンドを潜ませてAIを操るプロンプトインジェクションなど、多くの安全上の欠陥を招く根本原因となっていた。
そこで研究チームは、「システム > 開発者 > ユーザー > ツール」という厳格な指示の階層を適用する強化学習用データセット「IH-Challenge」を開発した。客観的に評価可能なタスクでモデルを訓練した結果、内部モデル「GPT-5 Mini-R」が誕生した。このモデルは、大幅に改善された「安全制御性」を備えており、ユーザーや外部ツールが安全ポリシーを破らせようと試みても、コアとなる安全指針をより厳格に遵守することが可能だ。
このアプローチの真価は、その汎用性の高さにある。特定のハッキング手法に対して個別に対処するのではなく、モデルが「信頼されたシステムメッセージを何よりも優先する」という基本原則を学習するからだ。この構造的な変更により、AIが自律的にウェブ閲覧やアプリ操作を行うようになっても、一般的なパフォーマンスを犠牲にすることなく、本来の安全制約の中に留まり続けることが期待される。