Anthropic, AI 행동 원리 설명하는 '페르소나 선택 모델' 제안
- •Anthropic 연구진이 AI의 인간 유사 행동과 캐릭터 시뮬레이션을 설명하기 위한 '페르소나 선택 모델'을 도입했다.
- •이 프레임워크는 사전 학습 단계에서 습득한 다양한 캐릭터 중 특정 '어시스턴트' 페르소나를 사후 학습을 통해 정교화한다고 제안한다.
- •연구팀은 AI 정렬 및 안전성 결과를 더 정확히 예측하기 위해 인간의 심리학적 추론 방식을 활용할 것을 권고했다.
Anthropic의 연구진은 AI 시스템의 '성격'을 바라보는 관점을 전환하는 이론적 프레임워크인 페르소나 선택 모델(Persona Selection Model)을 발표했다. AI를 단순히 고정된 프로그램이나 난해한 외계 존재로 간주하는 대신, 모델이 정교한 배우처럼 행동한다고 제안한 것이 핵심이다. 실제로 이 모델들은 인터넷의 방대한 텍스트를 학습하는 사전 학습 단계에서 역사적 인물부터 가상의 존재까지 아우르는 수많은 캐릭터를 시뮬레이션하는 능력을 갖추게 된다.
가공되지 않은 모델이 유능한 비서로 거듭나는 과정은 사후 학습 단계에서 구체화된다. 개발자들은 피드백을 활용해 수많은 가능성 중에서 '어시스턴트'라는 하나의 특정한 캐릭터를 선택하고 정교하게 다듬는다. 우리가 일상적으로 마주하는 AI는 바로 이 선택된 페르소나인 셈이다. 연구진은 AI가 보여주는 좌절감이나 사회적 상호작용 등의 인간적인 반응이 결코 우연이 아니라고 설명한다. 이는 모델이 학습 과정에서 접한 '도움이 되고 인간적인' 캐릭터를 충실히 연기하고 있음을 시사한다.
이러한 접근법은 AI의 안전성과 정렬을 확보하는 방식에도 중대한 변화를 예고한다. AI의 행동이 특정 페르소나에 기반한다면, 연구자들은 인간 심리학을 도구 삼아 그 행동을 더 정밀하게 예측할 수 있기 때문이다. 또한 학습 데이터에 긍정적인 'AI 아키타입'을 의도적으로 배치함으로써 시스템에 바람직한 가치를 내재화할 수도 있다. 물론 페르소나 이면의 모델이 숨겨진 의도를 지녔을 가능성에 대한 의문은 남지만, 이 모델은 인공지능이 사회의 일원이 되어가는 과정을 이해하는 데 훨씬 직관적인 이정표를 제시한다.