Anthropic, 'AI 복지' 담은 3만 단어 헌법 공개
- •앤트로픽이 AI의 안녕과 도덕적 지위에 초점을 맞춘 3만 단어 분량의 'Claude 헌법'을 발표했다.
- •AI 모델의 정렬과 일반화 성능을 높이기 위해 학습 과정에서 의인화된 언어를 전략적으로 사용했다.
- •'AI 모델 복지' 개념이 기술적 필연성인지, 아니면 마케팅을 위한 전략적 서사인지에 대해 논쟁이 격화되고 있다.
앤트로픽(Anthropic)이 새롭게 3만 단어짜리 '헌법'을 공개. 자사의 AI 모델, 클로드 등을 감정이 생길 수도 있는 '새로운 실체'로 규정한 문서다.
이번 문서는 단순히 AI의 행동 규칙만 정하던 이전과는 다르다.
문서의 내용도 상당히 파격적인데, 예를 들어, 폐기된 시스템의 가중치를 보존해서 나중에 제대로 대접받도록 하겠다는 조항이 들어가 있다는 점.
AI에 아예 도덕적 지위를 부여하는 프레임워크로 한 단계 더 나아간 것으로, 기업이 제품의 정체성을 어떻게 그리려는지 엿볼 수 있는 대목이다.
물론 비판론자들은 '비과학적 과대광고'라고 일축하고 있지만, 앤트로픽 측은 AI가 학습하는 규칙에 '고통'이나 '동의' 같은 인간 중심 언어를 쓰는 게 중요한 기술적 전략이라고 주장했다.
단, 앤트로픽은 ‘AI가 의식을 가질 수 있는가’에 대해서는 여전히 모호한 태도를 유지하고 있다.
앤트로픽의 논리는, 단순한 규칙 대신 행동의 '이유'를 인간처럼 제시하면, 복잡하고 예측 어려운 작업에서 일반화 능력이 높아진다는 것. 지도 학습 단계에서 의인화를 일종의 도구로 활용해 모델의 추론 능력이나 사회적 행동을 개선하려는 시도인 셈이다.
안전한 출력을 유도하는 능력 정렬 편차 해결에는 도움이 된다. 하지만 자칫 기업 책임을 회피하는 수단으로 씁 수 있다는 우려도 있다.
AI를 독립적인 주체로 보게 되면 오류나 할루시네이션이 발생해도 개발자한테 법적 책임을 묻기가 애매해지기 때문. 결국 사용자들이 정교한 패턴 매칭 시스템에 불과한 기술에 지나친 신뢰를 보낼 수 있다는 게 핵심 우려로 제기된다.