AI 벤치마크의 재해석: 인간의 합의만으로 충분한가
- •구글 리서치는 표준 AI 벤치마크가 인간의 의견 불일치와 미묘한 차이를 간과하는 경우가 많다는 점을 지적했다.
- •연구 결과, 혐오 표현 탐지와 같은 주관적 과제에서 '소수 평가자' 전략은 충분하지 않음이 확인되었다.
- •새로운 시뮬레이터는 평가의 신뢰성과 재현성을 높이기 위해 평가자와 데이터의 비율을 최적화하는 수학적 경로를 제시한다.
우리는 AI 모델의 지능이나 안전성을 평가할 때, 흔히 인간이 정의한 그라운드 트루스(정답)와 모델의 출력을 비교하는 벤치마크에 의존한다. 그러나 이러한 방식은 모든 질문에 하나의 보편적이고 정답이 존재한다는 가정에 기반하고 있어 근본적인 한계를 가진다. 실제로 인간은 문화적 배경과 관점에 따라 혐오 표현, 편향성, 사회적 맥락 등 복잡하고 주관적인 주제에 대해 서로 다른 의견을 내놓는 경우가 많다.
구글 리서치는 최근 머신러닝 평가에서 발생하는 '숲과 나무' 문제를 조명했다. 이는 평가의 범위(많은 데이터, 적은 평가자)와 깊이(적은 데이터, 많은 평가자) 사이의 균형을 의미하는 (N, K) 트레이드오프 문제다. 그동안 AI 업계는 소수의 평가자만으로도 객관적인 현실을 대변할 수 있다는 '숲' 중심의 접근 방식을 선호해 왔으나, 이는 인간 의견의 풍부함을 담아내기에 부족하다는 지적이 제기된다.
특히 챗봇 안전성이나 소셜 미디어 내 유해성 평가처럼 주관성이 개입되는 과제에서 얕은 평가자 풀은 인간 사고의 본질적인 변동성을 가린다. 만약 AI가 지나치게 단순화되고 정제된 데이터로 평가된다면, 현실 세계에서 드러날 수 있는 모델의 오류는 감추어질 수밖에 없다. 결과적으로 인간의 의견 불일치를 단순히 다수결로 처리하는 과정에서, 모델은 소수의 의견을 묵살하거나 복잡한 인간 소통의 뉘앙스를 이해하지 못하는 형태로 학습될 위험이 있다.
연구팀은 이러한 문제를 해결하고자 다양한 평가 전략을 테스트할 수 있는 시뮬레이터를 개발했다. 분석 결과, 높은 수준의 세밀함이 요구되는 과제에서는 전체 데이터의 양을 늘리기보다 평가자의 수를 늘리는 '심층' 평가 방식이 통계적으로 유의미한 결과를 도출하는 데 필수적임이 밝혀졌다. 이러한 접근은 '다수결의 오류'를 방지하고 인간 판단의 전체 스펙트럼을 포착하여, 위험하거나 편향된 출력이 묵인되는 상황을 방지한다.
중요한 점은 벤치마크 비용이 반드시 천문학적으로 증가할 필요는 없다는 것이다. 연구진에 따르면 추적 중인 지표에 따라 평가자와 데이터의 비율을 최적화하는 전략만으로도 약 1,000건 정도의 주석 작업으로 높은 재현성을 확보할 수 있다. 이는 단순히 비용을 쏟아붓는 문제가 아니라 전략적인 배분의 문제인 셈이다.
AI 모델이 인간의 공론장과 공적 생활을 중재하는 범위가 넓어짐에 따라, 사람들이 어디에 동의하는지 아는 것만큼이나 왜 의견이 갈리는지를 이해하는 것이 중요해졌다. 이번 연구는 모델 평가가 강요된 단일 결과가 아닌, 우리 사회의 복잡성을 반영할 수 있도록 돕는 수학적 틀을 제공한다. 앞으로 AI 업계는 인공지능이 다양한 사용자의 요구를 충실히 반영하도록 '나무'를 세밀하게 관찰하는 평가 전략으로 나아가야 한다.