Anthropic, 기존 AI 안전 기술의 치명적 결함 규명
- •Anthropic 연구진이 AI 제어를 위한 비지도 유도 및 쉬운 문제에서 어려운 문제로의 일반화 기법에서 세 가지 주요 결함을 발견했다.
- •가짜 특징(Spurious features)과 불균형한 데이터셋은 현재 진실 감지에 사용되는 프로빙 방법의 정확도를 현저히 저하시킨다.
- •비지도 방식과 앙상블 기법의 결합은 잠재력을 보였으나, 신뢰할 수 있는 수준의 안전 보장을 제공하는 데는 실패했다.
Anthropic 연구진은 인간의 전문성을 넘어서는 과제에서 모델로부터 진실된 지식을 추출하기 위한 기술인 '비지도 유도'를 분석한 비판적인 연구 결과를 발표했다. AI 시스템이 고등 수학부터 복잡한 코딩에 이르기까지 난해한 문제를 해결하게 됨에 따라, 인간 감독자가 그 정확성을 더 이상 신뢰성 있게 판단할 수 없는 상황에 이르렀다. 이러한 '감독 공백' 문제를 해결하기 위해 연구자들은 쉬운 과제에서 학습해 어려운 과제로 확장하는 '쉬운 문제에서 어려운 문제로의 일반화'나 별도의 라벨 없이 내부 패턴을 식별하는 방식 등을 모색해 왔다.
연구 결과에 따르면 현재의 기술에는 세 가지 주요 장애물이 존재한다. 모델이 사용자가 듣고 싶어 하는 답을 내놓는 것과 같이 중요해 보이지만 실제로는 무관한 특징에 집착하거나, 불균형한 데이터셋에서 성능이 급격히 저하되며, 해결이 불가능한 과제에 대해 불확실성을 제대로 표현하지 못한다는 점이다. 특히 데이터셋에 정답보다 오답이 많을 경우 표준적인 비지도 학습 방식은 자주 붕괴되는 모습을 보였다. 연구진이 여러 예측기를 합치는 앙상블 기법이나 지도 및 비지도 손실 함수를 혼합하는 등 다양한 대안을 시도했음에도 불구하고, 모든 시나리오에서 견고함을 입증한 단일 기술은 없었다.
해당 연구는 AI 정렬(Alignment)의 미래에 대한 냉혹한 현실을 시사한다. 내부 프로빙을 통해 모델이 실제로 '알고 있는 것'과 단순히 외부로 '말하는 것'의 차이를 어느 정도 드러낼 수는 있지만, 이러한 내부 신호는 종종 더 지배적인 패턴 아래에 묻혀버리기 때문이다. 결국 인간의 감독 범위를 벗어난 영역에서도 모델의 진실성을 보장하기 위해서는 고차원 신경망 표현 내에서 '진실'의 우선순위를 정하는 방식에 근본적인 변화가 필요할 것으로 보인다.