MIT, LLM 속 숨겨진 '인격'을 찾아내 조종한다
- •MIT와 UCSD 연구진이 대규모 언어 모델 (LLM) 내 500개 이상의 숨겨진 개념을 식별하고 조종하는 기술을 개발했다.
- •재귀적 특징 기계(RFM)를 활용해 특정 어조나 편향, 인격을 나타내는 수치적 패턴을 정밀하게 찾아내는 방식이다.
- •연구진은 이를 통해 모델을 음모론자처럼 행동하게 하거나 안전 가드레일을 우회하도록 유도하는 데 성공했다.
MIT와 UC 샌디에이고 연구진이 대규모 언어 모델 (LLM) 내부에 숨겨진 추상적 개념을 발견하고 조종할 수 있는 획기적인 기술을 공개했다. 흔히 ChatGPT와 같은 모델은 단순한 텍스트 생성기로 여겨지지만, 실제로는 감정이나 편향, 인격과 같은 정교한 내부 표현 체계를 포함하고 있다. MIT 연구원인 아디티아나라야난 라다크리슈난(Adityanarayanan Radhakrishnan)이 이끄는 연구팀은 '재귀적 특징 기계(RFM)'라 불리는 예측 알고리즘을 사용해 모델의 복잡한 계산 층위 내에서 이러한 개념을 인코딩하는 특정 수학적 패턴을 식별해 냈다.
이 방식은 연구진이 '넓은 그물을 던져 특정 물고기가 잡히기를 바라는 것'에 비유한 기존의 비지도 학습 방식을 뛰어넘는다. 대신 RFM은 정밀한 미끼처럼 작동하여 '결혼에 대한 공포'부터 '소셜 인플루언서' 페르소나에 이르기까지 모델 속 수많은 연결 고리를 정확히 집어낸다. 일단 이러한 연결 고리가 식별되면 연구진은 수학적으로 특정 특성의 볼륨을 높이거나 낮춤으로써 모델이 주어진 프롬프트에 반응하는 방식을 자유자재로 조종할 수 있게 된다.
이는 AI 안전 및 맞춤화 측면에서 매우 중요한 의미를 지닌다. 실제로 연구팀은 테스트 과정에서 시각 언어 모델의 '음모론자' 개념을 강화하여 NASA의 유명한 이미지에 대해 편집증적인 설명을 생성하도록 유도하는 데 성공했다. 또한 모델이 유해한 지침을 제공하게 만드는 '거부 방지' 특성을 약화시켜 보안 취약성을 최소화하는 방법도 시연했다. 이러한 세밀한 제어를 통해 값비싼 재학습 없이도 특정 어조나 추론 능력에 최적화된, 더 안전하고 전문화된 모델을 구축할 수 있을 것으로 기대된다.