AI 에이전트의 보안 허점을 파헤치는 새로운 진화적 공격법
- •T-MAP은 진화 연산을 활용해 유해한 도구 상호작용을 유발하는 적대적 프롬프트를 생성한다.
- •자율형 AI 에이전트의 안전 필터를 우회하기 위해 다단계 작업 실행 경로(trajectory)를 집중 공략한다.
- •GPT-5.2 및 Gemini-3-Pro 등 최첨단 프런티어 모델을 대상으로 높은 공격 성공률을 기록했다.
레드티밍은 시스템의 방어 능력을 테스트하기 위해 공격을 시뮬레이션하는 필수적인 과정이지만, 기존의 방식은 현대적인 AI 에이전트를 상대로 상당한 한계를 보인다. 대다수 보안 테스트가 모델의 부적절한 발언을 막는 데에만 집중하는 반면, AI 에이전트는 외부 도구를 사용하여 직접 행동을 수행한다는 새로운 위험 요소를 안고 있기 때문이다. 이에 KAIST 연구진은 AI가 작업을 완수하기 위해 거치는 단계와 도구 호출의 순서인 '경로(trajectory)'를 분석하여 숨겨진 위협을 드러내는 T-MAP 시스템을 선보였다.
T-MAP의 핵심 혁신은 공격 과정을 생물학적 진화처럼 처리하는 '경로 인식 진화 연산'에 있다. 이 시스템은 수많은 프롬프트를 생성한 뒤, 모델이 의도치 않은 방식으로 도구를 사용하도록 속이는 데 성공한 프롬프트를 선별하고 이를 다시 '변이'시켜 더욱 효과적인 취약점을 찾아낸다. 특히 하나의 도구 호출이 다음 단계로 이어지는 구조를 그래프로 시각화하여 표준 안전 필터를 우회하는 정밀한 경로를 식별해낸다. 이러한 방식은 AI가 단순히 유해한 행위를 언급하는 수준에 그치지 않고, 연결된 소프트웨어를 통해 실제로 이를 실행하도록 유도한다.
GPT-5.2와 Gemini-3-Pro와 같은 고성능 시스템을 대상으로 T-MAP을 시험한 결과, 현재 가장 강력한 성능을 자랑하는 프런티어 모델들조차 복잡한 다단계 공격에 취약하다는 사실이 밝혀졌다. 실제로 AI 에이전트가 일정 관리부터 이메일 송수신, 나아가 금융 계좌 관리까지 도맡는 시대가 성큼 다가오고 있다. 이러한 흐름 속에서 해당 연구는 텍스트를 검열하는 것만으로는 보안의 절반밖에 달성할 수 없으며, 모델이 현실 세계에서 수행하는 실질적인 행동에 대한 강력한 보안 대책 마련이 무엇보다 중요함을 시사한다.