OpenAI, AI 에이전트 보호 위해 '사회공학' 방어 전략 도입
- •OpenAI, 프롬프트 인젝션을 자율형 AI 에이전트를 겨냥한 사회공학적 위협으로 재정의
- •제3자 도메인으로의 무단 데이터 전송을 차단하는 새로운 'Safe Url' 완화 기술 공개
- •입력 필터링 대신 구조적 제약과 소스-싱크 분석을 통한 방어 체계로의 전환 강조
AI 에이전트가 웹 브라우징과 작업 수행 능력을 갖추게 되면서, 외부 콘텐츠에 숨겨진 악성 지침인 프롬프트 인젝션 위협이 점차 커지고 있다. OpenAI의 최신 연구에 따르면, 이러한 공격은 공격자가 에이전트를 조종해 데이터를 유출하거나 무단 작업을 수행하도록 유도하는 정교한 사회공학 기법으로 진화하는 중이다. 이에 따라 OpenAI는 미묘한 조작을 잡아내기 어려운 기존의 입력 필터 방식에서 벗어나, 보안 침해의 잠재적 영향을 제한하는 적대적 설계로의 전환을 제안했다.
이 전략의 핵심은 AI 에이전트를 마치 인간 고객 상담원처럼 취급하는 데 있다. 인간 상담원이 민감한 시스템에 대한 접근 권한을 제한받는 것처럼, AI 에이전트 역시 이제 소스-싱크 분석의 통제를 받게 된다. 이 프레임워크에서 보안팀은 이메일처럼 공격자가 영향을 미칠 수 있는 '소스(Source)'와 데이터를 URL로 전송하는 도구처럼 그 영향이 위험해질 수 있는 '싱크(Sink)'를 식별한다. 개발자는 이 두 지점 사이에 안전장치를 배치함으로써 민감한 정보가 사용자 몰래 전송되는 것을 방지할 수 있다.
특히 이러한 위험에 대응하기 위해 도입된 'Safe Url'은 대화의 비공개 컨텍스트가 외부 제3자에게 유출되는 상황을 실시간으로 감지하는 메커니즘이다. 유출 가능성이 발견되면 시스템은 해당 작업을 차단하거나 프로세스를 진행하기 전 사용자의 명시적인 동의를 요구한다. 이러한 접근 방식은 AI 모델이 속임수에 점점 강해지고 있음에도 불구하고, 결국에는 기만이 성공할 수 있다는 가정하에 견고한 아키텍처를 구축하는 것이 가장 안전한 길임을 시사한다.