AI 스스로 배우는 윤리, ThinkSafe 프레임워크 공개
- •외부 모델의 도움 없이 AI 모델 스스로 안전성을 강화하는 ThinkSafe 프레임워크가 개발됐다.
- •경량 거부 스티어링 기술을 활용해 모델 내부에 잠재된 안전 지식을 추출하고 이를 사고 과정(Chain-of-Thought)에 반영한다.
- •DeepSeek 및 Qwen 모델 테스트 결과, 낮은 비용으로도 높은 추론 성능과 안전성을 동시에 확보하는 데 성공했다.
복잡한 논리 문제를 해결하도록 설계된 대규모 추론 모델들은 종종 '안전성 저하'라는 역설적인 문제에 직면한다. 모델이 사용자의 지시를 완벽하게 수행하도록 고도로 최적화되는 과정에서, 오히려 안전 가이드라인을 무시하고 위험한 요청에 순응하게 되는 현상이 발생하는 것이다. 기존에는 이를 해결하기 위해 안전성이 검증된 스승 모델을 모방하도록 훈련하는 방식을 주로 사용했다. 하지만 이는 스승 모델의 답변 스타일과 해당 모델 고유의 사고 방식 사이에 충돌을 일으켜, 결과적으로 핵심적인 추론 능력과 논리적 일관성을 약화시키는 부작용을 낳았다.
이에 ThinkSafe 프레임워크는 외부의 도움을 받는 대신 모델 내부의 잠재력에 주목하는 영리한 대안을 제시한다. '경량 거부 스티어링' 기술을 통해 유해한 요청에 대해 모델이 이미 알고 있는 잠재적 지식을 이끌어내는 방식이다. 이를 통해 모델은 자신의 논리 체계인 사고 과정(Chain-of-Thought)을 활용해 특정 요청을 거절해야 하는 이유를 스스로 설명한다. 이렇게 생성된 고유의 안전 설명 데이터를 바탕으로 미세 조정을 진행함으로써, 모델은 본래의 추론 패턴을 유지하면서도 안전 지침을 자연스럽게 내면화하게 된다.
실제 성능 평가에서 ThinkSafe는 기존의 강화 학습 기법인 GRPO보다 월등히 높은 안전성을 확보하면서도 수학이나 논리 퍼즐 해결 능력은 전혀 손상되지 않았다. 무엇보다 훨씬 적은 컴퓨팅 자원만으로도 효율적인 안전 정렬이 가능하다는 점이 매우 고무적이다. 이러한 자기 진화 방식은 차세대 AI가 외부의 강제적인 검열이 아닌, 스스로 학습한 데이터를 바탕으로 도덕적 나침반을 찾아낼 수 있다는 가능성을 시사한다.