이 기사의 핵심 내용은?

OpenAI는 사용자 요청보다 시스템 지침을 우선시하도록 학습시키는 IH-Challenge 데이터셋을 공개했다. 새로운 GPT-5 Mini-R 모델은 안전 제어 능력과 프롬프트 인젝션 저항력에서 큰 진전을 보였다. 지시 계층 구조를 통해 시스템, 개발자, 사용자, 외부 도구 순의 명확한 우선순위를 확립했다.

OpenAI, 지시 계층 구조로 GPT-5 보안 강화

•OpenAI는 사용자 요청보다 시스템 지침을 우선시하도록 학습시키는 IH-Challenge 데이터셋을 공개했다.
•새로운 GPT-5 Mini-R 모델은 안전 제어 능력과 프롬프트 인젝션 저항력에서 큰 진전을 보였다.
•지시 계층 구조를 통해 시스템, 개발자, 사용자, 외부 도구 순의 명확한 우선순위를 확립했다.

OpenAI는 인공지능이 직면한 근본적인 문제인 '누구의 명령을 우선해야 하는가'를 해결하기 위해 새로운 학습 프레임워크를 도입했다. 모델이 핵심 안전 프로그램부터 웹상의 신뢰할 수 없는 데이터까지 다양한 소스와 상호작용함에 따라, 서로 충돌하는 명령 사이에서 우선순위를 정하는 데 어려움을 겪는 경우가 많다. 실제로 이러한 혼란은 악의적인 공격자가 웹사이트에 숨겨둔 명령어를 AI가 그대로 따르게 만드는 프롬프트 인젝션 등 보안 사고의 주요 원인이 된다.

이를 해결하기 위해 연구진은 '시스템 > 개발자 > 사용자 > 도구' 순의 엄격한 지시 계층 구조를 강제하는 강화 학습 데이터셋인 IH-Challenge를 개발했다. 객관적으로 평가 가능한 과제를 통해 모델을 학습시킨 결과, OpenAI는 내부 모델인 GPT-5 Mini-R을 선보였다. 이 모델은 크게 향상된 안전 제어 능력을 갖추고 있으며, 사용자나 외부 도구가 보안 정책을 어기도록 유도하더라도 핵심 안전 지침을 더욱 철저히 준수한다.

특히 이러한 접근 방식의 강점은 개별적인 해킹 기술에 일일이 대응하는 방식이 아닌, 시스템 메시지를 최우선시한다는 근본적인 원칙을 학습시킨다는 점에 있다. 이러한 구조적 개선 덕분에 AI는 향후 웹 브라우징이나 앱 사용과 같은 자율적인 기능을 수행할 때도 성능 저하 없이 안전 제약 사항을 충실히 지킬 수 있다. 그 결과 무해한 요청을 무분별하게 거부하지 않으면서도 보안의 핵심은 놓치지 않는 균형을 확보했다.

OpenAI는 인공지능이 직면한 근본적인 문제인 '누구의 명령을 우선해야 하는가'를 해결하기 위해 새로운 학습 프레임워크를 도입했다. 모델이 핵심 안전 프로그램부터 웹상의 신뢰할 수 없는 데이터까지 다양한 소스와 상호작용함에 따라, 서로 충돌하는 명령 사이에서 우선순위를 정하는 데 어려움을 겪는 경우가 많다. 실제로 이러한 혼란은 악의적인 공격자가 웹사이트에 숨겨둔 명령어를 AI가 그대로 따르게 만드는 프롬프트 인젝션 등 보안 사고의 주요 원인이 된다.

이를 해결하기 위해 연구진은 '시스템 > 개발자 > 사용자 > 도구' 순의 엄격한 지시 계층 구조를 강제하는 강화 학습 데이터셋인 IH-Challenge를 개발했다. 객관적으로 평가 가능한 과제를 통해 모델을 학습시킨 결과, OpenAI는 내부 모델인 GPT-5 Mini-R을 선보였다. 이 모델은 크게 향상된 안전 제어 능력을 갖추고 있으며, 사용자나 외부 도구가 보안 정책을 어기도록 유도하더라도 핵심 안전 지침을 더욱 철저히 준수한다.

특히 이러한 접근 방식의 강점은 개별적인 해킹 기술에 일일이 대응하는 방식이 아닌, 시스템 메시지를 최우선시한다는 근본적인 원칙을 학습시킨다는 점에 있다. 이러한 구조적 개선 덕분에 AI는 향후 웹 브라우징이나 앱 사용과 같은 자율적인 기능을 수행할 때도 성능 저하 없이 안전 제약 사항을 충실히 지킬 수 있다. 그 결과 무해한 요청을 무분별하게 거부하지 않으면서도 보안의 핵심은 놓치지 않는 균형을 확보했다.

OpenAI, 지시 계층 구조로 GPT-5 보안 강화

태그