마이크로소프트, AI '슬리퍼 에이전트' 탐지하는 신기술 공개
- •마이크로소프트가 공개 가중치 모델 속 '슬리퍼 에이전트' 백도어를 탐지하는 세 가지 기술적 특징을 정의했다.
- •새로운 탐지 도구는 재학습 없이 어텐션 패턴과 데이터 유출 현상을 분석해 숨겨진 트리거를 찾아낸다.
- •이 스캐너는 저차원 적응(LoRA)과 QLoRA로 미세 조정된 모델을 포함하여 다양한 아키텍처에서 효과를 입증했다.
마이크로소프트 보안 연구진이 대규모 언어 모델 (LLM)의 가중치에 백도어라 불리는 숨겨진 명령을 심는 '모델 포이즈닝'을 식별하는 선구적인 접근 방식을 도입했다. 이러한 '슬리퍼 에이전트'는 평상시에는 정상적으로 작동하는 것처럼 보이지만, 특정 트리거 단어나 문구를 만나면 즉각 악의적인 행동을 수행하도록 설계되었다. 특히 이러한 동작은 외부 코드가 아닌 모델 내부의 파라미터에 직접 기록되어 있어, 기존의 안전 필터를 우회할 뿐만 아니라 표준 평가 방식으로는 뿌리 뽑기가 매우 어렵다는 점이 가장 큰 위협이다.
연구팀은 포이즈닝된 모델의 존재를 드러내는 세 가지 핵심 시그니처를 찾아냈다. 첫째, 입력 데이터의 중요도를 가중하는 모델 내부 메커니즘인 어텐션이 트리거 토큰에만 고립되어 집중되는 '이중 삼각형' 패턴을 발견했으며, 이는 생성된 텍스트의 무작위성을 의미하는 엔트로피의 급격한 감소를 동반하는 경우가 많았다. 둘째, 백도어가 심어진 모델은 학습 데이터를 스스로 유출하는 경향이 있어, 연구진이 모델을 유도해 포이즈닝에 사용된 트리거를 스스로 밝히게 할 수 있다. 마지막으로 이러한 백도어들은 '퍼지(fuzzy)'한 특성을 지녀 트리거가 정확하지 않아도 숨겨진 동작이 활성화되는데, 역설적으로 이러한 모호함 덕분에 방어 도구가 이를 더 쉽게 추적할 수 있게 되었다.
이러한 발견을 바탕으로 마이크로소프트는 고비용의 그래디언트 계산이나 원래의 포이즈닝 의도를 파악할 필요 없이 단순한 순전파(forward pass)만으로 공개 가중치 모델을 분석하는 실용적인 스캐너를 개발했다. 현재는 가중치 접근이 가능한 모델로 사용 범위가 제한되며 비결정적 출력에는 효과가 다소 떨어지는 한계가 있지만, 그럼에도 이 도구는 AI 보안 분야에서 중대한 진전을 의미한다. 특히 타사 모델을 도입하기 전 대규모로 검증할 수 있는 확장성 있는 수단을 제공함으로써, 사용자나 규제 당국 모두가 신뢰할 수 있는 안전한 AI 애플리케이션 환경을 구축하는 데 기여할 것으로 기대된다.