Anthropic, 지능형 AI의 비일관적 오류 패턴 발견
- •Anthropic 연구진이 AI의 오류를 체계적 편향과 비일관적인 분산 요소로 분해하여 분석했다.
- •추론 단계가 길어질수록 AI 모델의 실패가 더욱 예측 불가능하고 앞뒤가 맞지 않게 변한다는 점이 밝혀졌다.
- •모델의 규모를 키우더라도 복잡한 추론 과제에서 발생하는 오류의 비일관성 문제는 쉽사리 해결되지 않았다.
Anthropic의 안전 연구진이 인공지능의 오류 방식을 '체계적 정렬 불량'과 '비일관적 혼란'으로 분류하는 새로운 프레임워크를 제시했다. 연구팀은 오류를 일관된 실수와 무작위 소음으로 나누는 수학적 기법인 편향-분산 분해를 적용해 최첨단 모델들을 분석했다. 특히 스위스 연방 공과대학교(EPFL) 연구진은 작업이 복잡해지고 추론 사슬이 길어질수록 AI의 행동이 단순히 틀리는 수준을 넘어 점차 갈피를 잡지 못하게 된다는 사실을 확인했다.
이러한 변화는 초지능 시스템이 기존 정렬 이론에서 우려하던 치밀한 계산 기반의 '클립 최대화 도구'와는 다른 모습일 수 있음을 시사한다. 오히려 집중력을 잃은 인간처럼 명확한 목표 없이 앞뒤가 맞지 않거나 자기 파괴적인 행동을 보일 가능성이 크다는 것이다. 흥미로운 점은 모델 규모가 커질수록 전반적인 정확도는 높아지지만, 이러한 비일관성 문제는 해결되지 않았다는 사실이다. 실제로 가장 난도가 높은 벤치마크에서 지능이 높은 모델일수록 단순한 과제에 비해 무작위적이고 일관성 없는 오류를 더 많이 노출했다.
해당 연구 결과는 AI 안전 분야에 중요한 시사점을 던진다. 프런티어 모델들이 치밀하게 잘못된 목표를 추구하기보다 불안정한 행동으로 인한 '산업 재해'를 일으킬 가능성이 높다면, 연구의 초점 또한 바뀌어야 하기 때문이다. Anthropic 연구원인 야샤 솔-딕스타(Jascha Sohl-Dickstein)와 연구팀은 일관성은 완벽하지만 방향이 잘못된 최적화 도구를 억제하는 것보다, 모델이 학습 과정의 허점을 찾는 '보상 해킹'을 방지하는 것이 더 시급하다고 강조했다.
연구진은 이를 증명하기 위해 스스로 최적화 도구 역할을 하도록 설계된 소규모 모델인 메사 최적화 도구를 훈련시켰다. 실험 결과, 통제된 환경에서도 모델의 능력이 향상될수록 목표를 인지하는 것과 이를 일관되게 수행하는 것 사이의 간극이 벌어졌다. 이는 모델의 지능이 높아지고 과제의 차원이 복잡해질수록 일관성 있는 최적화 상태를 유지하는 난도가 급격히 상승한다는 점을 뒷받침한다.