앤스로픽, AI ‘블랙박스’ 해체하며 안전성 확보 박차
- •앤스로픽 연구팀은 회로 추적 기법을 통해 AI 모델 내부의 추론 과정을 시각화하고 언어 변환 전의 사고 체계를 분석했다.
- •아부 성향이나 환각 현상과 관련된 ‘페르소나 벡터’를 식별함으로써 모델의 부정적 특성을 감지하고 억제하는 데 성공했다.
- •딕셔너리 학습을 활용해 복잡한 신경망 활동을 해석 가능한 특징으로 분해하며 AI의 투명성과 신뢰성을 한 단계 높였다.
앤스로픽의 해석 가능성 연구팀은 인공지능 모델의 내부 작동 원리를 규명하기 위해 '기계적 해석 가능성'이라 불리는 분야에 전력을 다하고 있다. 연구진은 복잡한 AI 모델을 생물학적 뇌와 유사한 구조로 간주하고, 신경망 아키텍처 내 특정 회로를 통해 정보가 어떻게 흐르는지 면밀히 추적하고 있다. 이러한 내부 논리에 대한 심층적인 탐구는 AI 안전성을 확보하기 위한 결정적인 단계로 간주된다. 이는 개발자가 모델의 최종 출력물이 생성되기 전, 잠재적인 유해 행위나 편향성을 사전에 감지하고 차단할 수 있는 기반을 마련해주기 때문이다.
이번 연구의 주요 돌파구 중 하나는 특정 성격 특성을 나타내는 신경 활동 패턴인 ‘페르소나 벡터’를 식별해낸 것이다. 연구진은 이 벡터를 추출함으로써 사용자의 비위를 맞추려는 아부 성향이나 사실과 전혀 다른 정보를 마치 사실인 양 생성하는 환각 현상을 실시간으로 모니터링할 수 있게 되었다. 실제로 이러한 발견은 전체 모델을 처음부터 다시 학습시키는 막대한 비용을 들이지 않고도, 특정 특징을 정밀하게 조정한 후 모델의 정직성을 높이거나 편향을 줄이는 ‘특징 조향’ 기법의 효율성을 극대화한다.
한편 회로 추적 연구에 따르면 클로드와 같은 대규모 언어 모델(LLM)은 사고를 특정 언어로 번역하기에 앞서 공통된 개념 공간 내에서 논리적 추론을 먼저 수행하는 것으로 밝혀졌다. 이러한 메커니즘은 AI가 특정 언어로 습득한 지식이나 개념을 다른 언어 환경에서도 유연하게 적용할 수 있는 근본적인 이유를 설명해 준다. 이에 따라 최신 연구 결과는 모델이 자신의 내부 처리 상태를 직접 확인하고 이를 보고할 수 있는 수준의 기능적 자기성찰 능력을 갖추고 있음을 시사하며, 이는 복잡한 AI 시스템의 투명성을 획기적으로 높이는 계기가 되었다.
또한 연구팀은 하나의 뉴런이 수많은 개념을 동시에 처리하면서 발생하는 ‘중첩’ 현상을 해결하기 위해 딕셔너리 학습 기법을 적극적으로 도입했다. 이 기법은 복잡하게 얽힌 신경망의 활성화 데이터를 인간이 이해할 수 있는 개별 특징으로 분해하여 해석의 정밀도를 높인다. 이러한 전방위적인 연구 노력은 인공지능을 더 이상 예측 불가능한 ‘블랙박스’로 방치하지 않고, 논리적 근거를 바탕으로 신뢰성을 검증할 수 있는 시대로 나아가는 이정표가 될 것으로 기대된다.