이 기사의 핵심 내용은?

SPEX와 ProxySPEX는 AI 기능, 학습 데이터, 내부 구성 요소 간의 복잡한 상호작용을 정밀하게 식별한다 신호 처리 기술을 활용하여 인공지능의 해석 가능성을 확보하는 데 드는 계산 비용을 최대 10배 절감한다 대규모 모델 내 어텐션 헤드의 정밀한 가지치기를 지원하고 중복된 학습 데이터를 효과적으로 찾아낸다

거대 AI 모델의 복잡한 논리 구조를 해독하는 신규 알고리즘

•SPEX와 ProxySPEX는 AI 기능, 학습 데이터, 내부 구성 요소 간의 복잡한 상호작용을 정밀하게 식별한다
•신호 처리 기술을 활용하여 인공지능의 해석 가능성을 확보하는 데 드는 계산 비용을 최대 10배 절감한다
•대규모 모델 내 어텐션 헤드의 정밀한 가지치기를 지원하고 중복된 학습 데이터를 효과적으로 찾아낸다

거대언어모델(LLM)이 특정 결론에 도달하는 과정을 파악하는 일은 AI 안전 분야에서 해결하기 어려운 과제로 남아 있다. 기존 방식은 개별 단어나 데이터 포인트에 집중했으나, 현대적 모델은 한 단어의 의미가 다른 단어의 존재 여부에 전적으로 의존하는 '상호작용'을 통해 성능을 발휘한다. 이에 따라 UC 버클리 연구진은 이러한 영향력 있는 상호작용을 대규모로 식별할 수 있는 프레임워크인 SPEX와 ProxySPEX를 선보였다. 이 도구들은 모델의 내부 신호를 해독이 필요한 방송 신호처럼 처리함으로써, 막대한 컴퓨팅 자원을 소모하지 않고도 모델의 행동을 결정짓는 핵심적인 입력값이나 학습 샘플의 조합을 정확히 찾아낸다.

이 시스템의 핵심 메커니즘은 시스템의 일부를 체계적으로 제거하거나 마스킹하여 출력값의 변화를 관찰하는 'Ablation' 기법에 기반한다. 모든 가능한 조합을 테스트하는 것이 사실상 불가능하기에, SPEX는 신호 처리와 부호화 이론을 활용해 방대한 데이터 속에서 핵심적인 연결 고리를 찾아낸다. 이는 대부분의 상호작용이 조용히 유지되는 가운데 소수의 '희소한(sparse)' 연결만이 모델의 논리를 지배한다는 가정을 전제로 한다. 한편, ProxySPEX는 복잡한 관계가 단순한 관계 위에서 구축되는 계층적 패턴까지 식별하며 분석의 정밀도를 높였다. 실제로 연구진은 이 방식을 통해 GPT-4o mini에서 나타난 '트롤리 딜레마' 역설을 해결했으며, 모델의 오류가 단일 단어가 아닌 네 가지 특정 용어의 시너지 효과로 인해 발생했음을 밝혀냈다.

연구의 영향력은 실험실을 넘어 실제 배포 환경까지 확장된다. 데이터 속성 분석 측면에서 이 도구들은 중복된 학습 이미지를 식별하고, 모델이 카테고리 간 경계를 명확히 설정하도록 돕는 '시너지' 샘플을 구분해 낼 수 있다. 개발자 입장에서는 모델 아키텍처 내에서 정보를 처리하는 내부 구성 요소인 '어텐션 헤드' 중 불필요한 부분을 제거하는 가지치기 작업이 가능해진다. 즉, 영향력이 낮은 상호작용을 제거함으로써 특정 작업에서 더 뛰어난 성능을 발휘하는 가볍고 빠른 모델을 구축할 수 있게 된 것이다. 현재 이 프레임워크는 오픈소스 저장소인 SHAP-IQ에 통합되어 투명하고 신뢰할 수 있는 AI 시스템 구축을 위한 새로운 표준을 제시하고 있다.

인공지능(LLM)이 왜 그런 대답을 했는지 그 이유를 정확히 알아내는 것은 매우 어려운 일이에요. 단어 하나하나의 뜻도 중요하지만, 여러 단어가 함께 모여서 만들어내는 '서로 간의 영향(상호작용)' 때문에 인공지능의 생각이 복잡해지기 때문이에요. UC 버클리 대학의 연구원들은 이런 복잡한 연결 고리를 아주 커다란 규모로 찾아낼 수 있는 'SPEX'와 'ProxySPEX'라는 도구를 만들었어요. 마치 복잡한 라디오 방송 신호를 해독하는 것처럼, 인공지능 내부의 신호를 분석해서 어떤 입력값들이 뭉쳐서 인공지능의 행동을 결정했는지 정확히 찾아낼 수 있답니다.

이 도구의 핵심 원리는 '일부 빼보기(삭제법)'예요. 시스템의 일부분을 가려보면서 인공지능의 대답이 어떻게 바뀌는지 확인하는 방법이죠. 하지만 모든 경우를 다 확인하는 건 시간이 너무 오래 걸려요. 그래서 SPEX는 복잡한 신호 처리 기술을 사용해 수많은 연결 중에서 진짜 중요한 몇 개의 연결(희소 연결)만 빠르게 찾아내요. 덕분에 '트롤리 문제' 같은 어려운 퀴즈에서 인공지능(GPT-4o mini)이 왜 틀렸는지 분석해 보니, 단어 한 개가 아니라 특정 단어 4개가 함께 쓰였을 때 인공지능이 혼란에 빠진다는 사실을 밝혀낼 수 있었어요.

이 연구 결과는 실제 인공지능을 만드는 데 큰 도움이 돼요. 인공지능을 가르칠 때 쓰는 수많은 데이터 중에서 중복된 것은 버리고, 정말 공부에 도움이 되는 핵심 자료만 골라낼 수 있거든요. 또한, 인공지능 안에서 정보를 처리하는 부품(어텐션 헤드) 중에 쓸모없는 것들을 가지치기하듯 없앨 수 있어요. 이렇게 하면 인공지능이 더 가볍고 빨라지면서도 실력은 오히려 더 좋아진답니다. 이 기술은 누구나 사용할 수 있게 공개(오픈소스)되어, 앞으로 우리가 더 믿고 쓸 수 있는 투명한 인공지능을 만드는 새로운 기준이 될 거예요.

거대 AI 모델의 복잡한 논리 구조를 해독하는 신규 알고리즘

AI의 복잡한 속마음을 읽어내는 새로운 돋보기가 생겼어요!

태그