MIT 연구진, AI의 '근거 없는 자신감' 잡아내는 지표 개발
- •MIT-IBM 연구진이 모델이 오답을 확신하는 시점을 식별하기 위한 'Total Uncertainty' 지표를 도입했다.
- •이 방식은 모델의 자기 일관성과 모델 간 불일치를 결합하여 우연적 및 인식론적 불확실성을 모두 측정한다.
- •해당 지표는 복잡한 추론과 수학 과제에서 환각 현상을 식별하는 데 기존 방식보다 뛰어난 성능을 보였다.
거대언어모델(LLM)은 그럴싸해 보이지만 사실은 전혀 정확하지 않은 정보를 생성하며 이른바 '확신에 찬 오답'을 내놓는 문제를 자주 겪는다. 현재의 신뢰도 점검 방식은 주로 자기 일관성(Self-consistency), 즉 모델에 동일한 질문을 여러 번 던져 같은 대답을 반복하는지 확인하는 데 집중하고 있다. 그러나 이는 내부적인 확신 정도인 우연적 불확실성(Aleatoric uncertainty)만을 측정할 뿐이다. 그 결과, 특정 과제나 프롬프트에 모델 자체가 근본적으로 부적합한 경우는 제대로 잡아내지 못한다는 한계가 있다.
이러한 간극을 메우기 위해 MIT 연구진은 새로운 ‘Total Uncertainty(TU)’ 지표를 개발했다. 이 방식은 사용자가 특정 문제에 적합한 모델을 사용하고 있는지를 추적하는 인식론적 불확실(Epistemic uncertainty) 측정법을 도입했다. 특히 하나의 AI가 내놓은 의견에만 의존하는 대신, 타겟 모델의 응답을 서로 다른 제공업체의 유사한 아키텍처 그룹(앙상블)과 비교하는 방식을 취한다.
연구진은 다양한 응답들이 의미적으로 얼마나 일치하는지 나타내는 의미론적 유사성을 측정함으로써, 단일 모델이 높은 확신을 가지고 내뱉는 환각 현상을 효과적으로 가려낸다. 실제로 수학적 추론과 사실 관계 질의응답을 포함한 10가지 실무 과제를 테스트한 결과, 이 통합적 접근 방식은 기존의 업계 표준보다 신뢰할 수 없는 예측을 식별하는 데 훨씬 뛰어난 효과를 보였다.
이러한 기술적 진보는 사용자에게 AI 결과물을 불신해야 할 시점을 알려주고, 개발자에게는 연산 비용을 절감할 수 있게 해주는 이중의 이점을 제공한다. 모델 간 교차 점검은 기존의 일관성 테스트보다 전체 쿼리 수가 적게 드는 경우가 많기 때문이다. 결과적으로 이는 의료나 금융처럼 위험 부담이 큰 분야에서 더욱 신뢰할 수 있는 AI 시스템을 구축하기 위한 효율적인 경로를 제시한다.