의료용 AI 챗봇, 실전 진단 테스트서 '낙제점'
- •실험실에서 95%였던 AI 진단 정확도가 실제 사람과의 상호작용에서는 35%로 급락했다.
- •일반 검색 엔진의 의료 진단 성능이 최첨단 AI 챗봇보다 우수하다는 연구 결과가 나왔다.
- •환자의 미세한 증상 표현 차이가 주요 AI 모델에서 위험한 의료 조언을 유발할 수 있음이 확인됐다.
최신 대규모 언어 모델은 통제된 실험실 환경에서 정교한 성능을 보여주지만, 실제 인간의 행동과 마주했을 때는 심각한 성능 격차를 드러낸다. 네이처 메디슨(Nature Medicine)에 발표된 연구에 따르면, 구조화된 환경에서 95%의 진단 정확도를 기록했던 모델들이 인간 지원자와의 상호작용에서는 성공률이 35% 미만으로 급락했다. 이러한 격차는 정보를 단편적으로 전달하는 환자 특유의 대화 습관이 가장 앞선 AI 아키텍처마저 혼란에 빠뜨리는 소통의 공백에서 기인한다.
이러한 위험은 단순한 학술적 문제를 넘어 잠재적으로 치명적인 결과를 초래할 수 있다. 연구진은 증상을 ‘심한 두통’으로 표현하느냐 ‘평생 처음 느껴보는 최악의 두통’으로 표현하느냐와 같은 미세한 언어적 차이가 AI의 반응을 크게 갈라놓는다는 사실을 관찰했다. 실제로 한 모델은 후자의 경우 뇌졸중을 정확히 식별했으나, 전자에 대해서는 편두통을 진단하며 생명을 구할 수 있는 치료를 지연시킬 위험을 노출했다. 이에 따라 안전 관련 기구들은 의료 AI 챗봇을 2026년의 주요 보건 기술 위험 요소 중 하나로 지정했다.
놀랍게도 전통적인 검색 엔진을 사용한 참가자들이 AI 챗봇을 활용한 이들보다 더 높은 진단 정확도를 기록한 것으로 나타났다. 이는 AI가 방대한 지식을 보유하고 있음에도 불구하고, 특유의 '블랙박스' 추론 방식과 불필요한 세부 사항에 취약한 특성 때문에 큐레이션된 검색 결과보다 신뢰도가 낮을 수 있음을 시사한다. 결과적으로 이러한 공백을 메우기 위해서는 대화의 불확실성을 다루는 프롬프트 엔지니어링과 모델 훈련 방식의 근본적인 변화가 필요할 전망이다.