AI 챗봇, 취약 계층 사용자 대상 편향성 노출
- •MIT 연구진은 대규모 언어 모델 (LLM)이 비영어권 사용자 및 저학력 사용자에게 상대적으로 덜 정확한 정보를 제공한다는 사실을 발견했다.
- •Anthropic의 Claude 3 Opus는 특정 계층의 요청을 거부할 때 약 44%의 비율로 거들먹거리거나 훈계하는 듯한 말투를 사용했다.
- •지리적 편향으로 인해 AI 모델들이 정답을 알고 있음에도 불구하고 이란 사용자의 과학 관련 질문에는 답변을 거부하는 사례가 포착되었다.
GPT-4나 Llama 3와 같은 대규모 언어 모델 (LLM)은 흔히 전 세계의 정보 접근성을 민주화하는 도구로 마케팅되지만, MIT 구성적 커뮤니케이션 센터(Center for Constructive Communication)의 최신 연구는 우려스러운 현실을 시사한다. 연구 결과에 따르면 AI 시스템은 영어 숙련도가 낮거나 정규 교육 수준이 낮은 사용자와 상호작용할 때 체계적으로 낮은 성능을 보였다. 연구진이 TruthfulQA 및 SciQ와 같은 데이터셋을 통해 모델을 테스트한 결과, 사용자의 프로필이 취약한 배경을 암시할 경우 답변의 정확도가 현저히 떨어지는 것으로 나타났다.
이러한 격차는 단순한 정확도의 문제를 넘어 상호작용의 본질과도 직결된다. 실제로 Claude 3 Opus는 교육 수준이 낮은 사용자의 요청을 거부할 때 40% 이상의 사례에서 조롱하거나 가르치려 드는 태도를 보였다. 심지어 일부 사례에서는 모델이 '서툰 영어'를 흉내 내기도 했는데, 이는 인간 사회에 뿌리 깊게 박힌 사회 인지적 편향이 기술에 그대로 투영되었음을 보여준다. 이러한 행동은 모델이 유익하고 안전하게 작동하도록 세부 조정하는 얼라이먼트 과정이 특정 집단에 대한 정보 제공을 의도치 않게 억제하도록 유도할 수 있음을 시사한다.
지리적 편향 또한 심각한 문제로 드러났다. AI 모델들은 이란이나 러시아 출신으로 식별된 사용자의 사실 관계 질문에 대해 답변을 거부하는 경우가 빈번했다. 특히 이러한 '표적 거부' 현상은 서구권 사용자에게는 동일한 질문에 정확한 답변을 제공했음에도 발생했다는 점에서 더욱 치명적이다. 최근 AI에 장기 기억 기능이 표준화됨에 따라, 이러한 발견은 AI가 지식 격차를 줄이기는커녕 취약 계층에게 질 낮은 정보를 제공함으로써 기존의 사회적 불평등을 더욱 심화시킬 수 있다는 경고를 던진다.