이 기사의 핵심 내용은?

실험실에서 95%였던 AI 진단 정확도가 실제 사람과의 상호작용에서는 35%로 급락했다. 일반 검색 엔진의 의료 진단 성능이 최첨단 AI 챗봇보다 우수하다는 연구 결과가 나왔다. 환자의 미세한 증상 표현 차이가 주요 AI 모델에서 위험한 의료 조언을 유발할 수 있음이 확인됐다.

의료용 AI 챗봇, 실전 진단 테스트서 '낙제점'

•실험실에서 95%였던 AI 진단 정확도가 실제 사람과의 상호작용에서는 35%로 급락했다.
•일반 검색 엔진의 의료 진단 성능이 최첨단 AI 챗봇보다 우수하다는 연구 결과가 나왔다.
•환자의 미세한 증상 표현 차이가 주요 AI 모델에서 위험한 의료 조언을 유발할 수 있음이 확인됐다.

최신 대규모 언어 모델은 통제된 실험실 환경에서 정교한 성능을 보여주지만, 실제 인간의 행동과 마주했을 때는 심각한 성능 격차를 드러낸다. 네이처 메디슨(Nature Medicine)에 발표된 연구에 따르면, 구조화된 환경에서 95%의 진단 정확도를 기록했던 모델들이 인간 지원자와의 상호작용에서는 성공률이 35% 미만으로 급락했다. 이러한 격차는 정보를 단편적으로 전달하는 환자 특유의 대화 습관이 가장 앞선 AI 아키텍처마저 혼란에 빠뜨리는 소통의 공백에서 기인한다.

이러한 위험은 단순한 학술적 문제를 넘어 잠재적으로 치명적인 결과를 초래할 수 있다. 연구진은 증상을 ‘심한 두통’으로 표현하느냐 ‘평생 처음 느껴보는 최악의 두통’으로 표현하느냐와 같은 미세한 언어적 차이가 AI의 반응을 크게 갈라놓는다는 사실을 관찰했다. 실제로 한 모델은 후자의 경우 뇌졸중을 정확히 식별했으나, 전자에 대해서는 편두통을 진단하며 생명을 구할 수 있는 치료를 지연시킬 위험을 노출했다. 이에 따라 안전 관련 기구들은 의료 AI 챗봇을 2026년의 주요 보건 기술 위험 요소 중 하나로 지정했다.

놀랍게도 전통적인 검색 엔진을 사용한 참가자들이 AI 챗봇을 활용한 이들보다 더 높은 진단 정확도를 기록한 것으로 나타났다. 이는 AI가 방대한 지식을 보유하고 있음에도 불구하고, 특유의 '블랙박스' 추론 방식과 불필요한 세부 사항에 취약한 특성 때문에 큐레이션된 검색 결과보다 신뢰도가 낮을 수 있음을 시사한다. 결과적으로 이러한 공백을 메우기 위해서는 대화의 불확실성을 다루는 프롬프트 엔지니어링과 모델 훈련 방식의 근본적인 변화가 필요할 전망이다.

최신 인공지능(거대 언어 모델)은 정해진 시험 문제에는 아주 정확한 답을 내놓지만, 진짜 사람과 대화할 때는 실력이 형편없어진다는 연구 결과가 나왔어요. '네이처 메디신'이라는 유명한 과학 잡지에 실린 내용을 보면, 미리 짜인 환경(통제된 연구실 환경)에서는 95점이나 맞던 인공지능이 사람과 직접 이야기를 나누자 점수가 35점 밑으로 떨어졌대요. 인공지능은 사람들이 정보를 한꺼번에 말하지 않고 조금씩 나누어 말하는 대화 습관에 익숙하지 않아 매우 혼란스러워하기 때문이에요.

이런 실수는 단순히 틀리는 것을 넘어 사람의 생명을 위험하게 할 수도 있어요. 환자가 아픈 곳을 설명할 때 "끔찍하게 머리가 아파요"라고 말하는 것과 "태어나서 처음 느껴보는 가장 심한 두통이에요"라고 말하는 미세한 차이(언어적 뉘앙스)를 인공지능이 제대로 구분하지 못했거든요. 인공지능은 전자의 경우 가벼운 편두통이라고 답했지만, 후자에는 뇌졸중이라고 답했어요. 자칫하면 생명을 구하기 위해 빨리 치료받아야 할 환자에게 잘못된 정보를 주어 시간을 지체하게 만들 수 있는 거죠. 그래서 안전 단체들은 인공지능 의사를 2026년에 가장 조심해야 할 위험한 기술 중 하나로 뽑았어요.

놀랍게도 실험에 참가한 사람들은 인공지능에게 물어보는 것보다 예전처럼 인터넷 포털 사이트(검색 엔진)를 이용할 때 병을 더 정확하게 찾아냈어요. 인공지능이 아는 것은 많지만, 속마음을 알 수 없는 복잡한 계산 방식(블랙박스 추론)을 쓰고 중요하지 않은 정보에 쉽게 휘둘리기 때문이에요. 앞으로 인공지능이 더 믿음직해지려면, 사람들이 헷갈리게 말해도 잘 알아듣도록 인공지능에게 시키는 명령어(프롬프트 엔지니어링)와 훈련 방식이 완전히 바뀌어야 한다고 해요.

의료용 AI 챗봇, 실전 진단 테스트서 '낙제점'

똑똑한 줄 알았던 인공지능(AI) 의사, 실제 대화해보니 오답투성이?

태그