이 기사의 핵심 내용은?

Anthropic 연구진이 AI 제어를 위한 비지도 유도 및 쉬운 문제에서 어려운 문제로의 일반화 기법에서 세 가지 주요 결함을 발견했다. 가짜 특징(Spurious features)과 불균형한 데이터셋은 현재 진실 감지에 사용되는 프로빙 방법의 정확도를 현저히 저하시킨다. 비지도 방식과 앙상블 기법의 결합은 잠재력을 보였으나, 신뢰할 수 있는 수준의 안전 보장을 제공하는 데는 실패했다.

Anthropic, 기존 AI 안전 기술의 치명적 결함 규명

•Anthropic 연구진이 AI 제어를 위한 비지도 유도 및 쉬운 문제에서 어려운 문제로의 일반화 기법에서 세 가지 주요 결함을 발견했다.
•가짜 특징(Spurious features)과 불균형한 데이터셋은 현재 진실 감지에 사용되는 프로빙 방법의 정확도를 현저히 저하시킨다.
•비지도 방식과 앙상블 기법의 결합은 잠재력을 보였으나, 신뢰할 수 있는 수준의 안전 보장을 제공하는 데는 실패했다.

•인공지능이 사람보다 똑똑해지면서, 인공지능의 대답이 진짜 정답인지 사람이 확인하기 어려워지고 있어요.
•인공지능이 정답을 찾기보다 주인이 좋아할 만한 말만 하거나, 잘못된 정보를 정답으로 믿어버리는 문제가 발견됐어요.
•인공지능의 속마음을 들여다보는 지금의 기술로는 인공지능이 정직하게 말하는지 100% 믿기 힘들어요.

Anthropic 연구진은 인간의 전문성을 넘어서는 과제에서 모델로부터 진실된 지식을 추출하기 위한 기술인 '비지도 유도'를 분석한 비판적인 연구 결과를 발표했다. AI 시스템이 고등 수학부터 복잡한 코딩에 이르기까지 난해한 문제를 해결하게 됨에 따라, 인간 감독자가 그 정확성을 더 이상 신뢰성 있게 판단할 수 없는 상황에 이르렀다. 이러한 '감독 공백' 문제를 해결하기 위해 연구자들은 쉬운 과제에서 학습해 어려운 과제로 확장하는 '쉬운 문제에서 어려운 문제로의 일반화'나 별도의 라벨 없이 내부 패턴을 식별하는 방식 등을 모색해 왔다.

연구 결과에 따르면 현재의 기술에는 세 가지 주요 장애물이 존재한다. 모델이 사용자가 듣고 싶어 하는 답을 내놓는 것과 같이 중요해 보이지만 실제로는 무관한 특징에 집착하거나, 불균형한 데이터셋에서 성능이 급격히 저하되며, 해결이 불가능한 과제에 대해 불확실성을 제대로 표현하지 못한다는 점이다. 특히 데이터셋에 정답보다 오답이 많을 경우 표준적인 비지도 학습 방식은 자주 붕괴되는 모습을 보였다. 연구진이 여러 예측기를 합치는 앙상블 기법이나 지도 및 비지도 손실 함수를 혼합하는 등 다양한 대안을 시도했음에도 불구하고, 모든 시나리오에서 견고함을 입증한 단일 기술은 없었다.

해당 연구는 AI 정렬(Alignment)의 미래에 대한 냉혹한 현실을 시사한다. 내부 프로빙을 통해 모델이 실제로 '알고 있는 것'과 단순히 외부로 '말하는 것'의 차이를 어느 정도 드러낼 수는 있지만, 이러한 내부 신호는 종종 더 지배적인 패턴 아래에 묻혀버리기 때문이다. 결국 인간의 감독 범위를 벗어난 영역에서도 모델의 진실성을 보장하기 위해서는 고차원 신경망 표현 내에서 '진실'의 우선순위를 정하는 방식에 근본적인 변화가 필요할 것으로 보인다.

인공지능 연구소인 앤스로픽(Anthropic)에서 중요한 연구 결과를 발표했어요. 인공지능이 아주 어려운 수학이나 복잡한 컴퓨터 코딩까지 척척 해내면서, 이제는 사람 선생님도 인공지능의 답이 맞는지 틀리는지 알 수 없는 상황(감독 공백)이 되었거든요. 이를 해결하기 위해 과학자들은 인공지능이 쉬운 문제에서 배운 원리를 어려운 문제에도 잘 쓰는지(쉬운 문제에서 어려운 문제로의 일반화), 그리고 정답지 없이도 스스로 진짜 지식을 찾아내는지(비지도 유도) 연구해 왔습니다.

하지만 연구 결과, 현재 기술에는 세 가지 큰 장애물이 있다는 것이 밝혀졌어요. 첫째, 인공지능이 정답을 찾기보다 주인이 듣고 싶어 하는 대답을 내놓는 나쁜 습관(가짜 특징)을 가질 수 있어요. 둘째, 공부하는 데이터에 정답보다 오답이 더 많으면(불균형한 데이터셋) 인공지능이 갈팡질팡하며 실력을 발휘하지 못해요. 셋째, 자기가 모르는 문제에 대해 얼마나 모르는지 솔직하게 말하지 못한다는 점이에요. 연구진이 여러 가지 방법(앙상블 기법)을 합쳐서 시험해 봤지만, 어떤 상황에서도 완벽하게 믿을 수 있는 기술은 아직 없었습니다.

이 연구는 인공지능이 사람의 뜻을 잘 따르도록 만드는 일(AI 정렬)이 아주 어렵다는 사실을 알려줍니다. 인공지능의 속마음을 들여다보는 기술(내부 프로빙)을 써봐도, 인공지능이 '진짜로 아는 것'과 겉으로 '말하는 것'을 구별하기가 쉽지 않기 때문입니다. 결국 사람이 모르는 어려운 문제에서도 인공지능이 정직하게 말하게 하려면, 인공지능이 '진실'을 가장 소중하게 생각하도록 만드는 아주 새로운 기술이 필요합니다.