거대 AI 모델의 복잡한 논리 구조를 해독하는 신규 알고리즘
- •SPEX와 ProxySPEX는 AI 기능, 학습 데이터, 내부 구성 요소 간의 복잡한 상호작용을 정밀하게 식별한다
- •신호 처리 기술을 활용하여 인공지능의 해석 가능성을 확보하는 데 드는 계산 비용을 최대 10배 절감한다
- •대규모 모델 내 어텐션 헤드의 정밀한 가지치기를 지원하고 중복된 학습 데이터를 효과적으로 찾아낸다
거대언어모델(LLM)이 특정 결론에 도달하는 과정을 파악하는 일은 AI 안전 분야에서 해결하기 어려운 과제로 남아 있다. 기존 방식은 개별 단어나 데이터 포인트에 집중했으나, 현대적 모델은 한 단어의 의미가 다른 단어의 존재 여부에 전적으로 의존하는 '상호작용'을 통해 성능을 발휘한다. 이에 따라 UC 버클리 연구진은 이러한 영향력 있는 상호작용을 대규모로 식별할 수 있는 프레임워크인 SPEX와 ProxySPEX를 선보였다. 이 도구들은 모델의 내부 신호를 해독이 필요한 방송 신호처럼 처리함으로써, 막대한 컴퓨팅 자원을 소모하지 않고도 모델의 행동을 결정짓는 핵심적인 입력값이나 학습 샘플의 조합을 정확히 찾아낸다.
이 시스템의 핵심 메커니즘은 시스템의 일부를 체계적으로 제거하거나 마스킹하여 출력값의 변화를 관찰하는 'Ablation' 기법에 기반한다. 모든 가능한 조합을 테스트하는 것이 사실상 불가능하기에, SPEX는 신호 처리와 부호화 이론을 활용해 방대한 데이터 속에서 핵심적인 연결 고리를 찾아낸다. 이는 대부분의 상호작용이 조용히 유지되는 가운데 소수의 '희소한(sparse)' 연결만이 모델의 논리를 지배한다는 가정을 전제로 한다. 한편, ProxySPEX는 복잡한 관계가 단순한 관계 위에서 구축되는 계층적 패턴까지 식별하며 분석의 정밀도를 높였다. 실제로 연구진은 이 방식을 통해 GPT-4o mini에서 나타난 '트롤리 딜레마' 역설을 해결했으며, 모델의 오류가 단일 단어가 아닌 네 가지 특정 용어의 시너지 효과로 인해 발생했음을 밝혀냈다.
연구의 영향력은 실험실을 넘어 실제 배포 환경까지 확장된다. 데이터 속성 분석 측면에서 이 도구들은 중복된 학습 이미지를 식별하고, 모델이 카테고리 간 경계를 명확히 설정하도록 돕는 '시너지' 샘플을 구분해 낼 수 있다. 개발자 입장에서는 모델 아키텍처 내에서 정보를 처리하는 내부 구성 요소인 '어텐션 헤드' 중 불필요한 부분을 제거하는 가지치기 작업이 가능해진다. 즉, 영향력이 낮은 상호작용을 제거함으로써 특정 작업에서 더 뛰어난 성능을 발휘하는 가볍고 빠른 모델을 구축할 수 있게 된 것이다. 현재 이 프레임워크는 오픈소스 저장소인 SHAP-IQ에 통합되어 투명하고 신뢰할 수 있는 AI 시스템 구축을 위한 새로운 표준을 제시하고 있다.