딥페이크 엑스레이, 전문의마저 속였다
- •초기 진단 평가에서 방사선 전문의들이 합성 데이터로 생성된 엑스레이를 59%의 확률로 구분하지 못했다.
- •AI 생성 이미지에 대한 주의를 받은 후에도 임상의들의 판독 정확도는 75% 수준에 머물렀다.
- •멀티모달 AI 모델 역시 딥페이크 식별에 어려움을 겪었으며, 정확도는 57%에서 85% 사이로 나타났다.
딥페이크 기술이 마침내 의료 현장에 침투하며 우려 섞인 결과가 나오고 있다. 최근 학술지 '방사선학(Radiology)'에 발표된 연구에 따르면, 전문 방사선 전문의들조차 실제 의료 스캔 영상과 AI가 생성한 합성 엑스레이를 구분하는 데 큰 어려움을 겪는 것으로 밝혀졌다. 연구팀은 ChatGPT에 간단한 프롬프트를 입력해 특정 해부학적 위치와 질환을 모사한 방사선 영상을 제작하도록 했으며, 그 결과물이 매우 정교해 임상의들은 표준 진단 과정에서 약 60%의 확률로 가짜 영상을 식별하지 못했다.
특히 연구에 참여한 17명의 방사선 전문의들에게 합성 데이터에 의한 이상 징후를 찾아내라고 명시적으로 경고했음에도 불구하고, 딥페이크를 찾아낸 정확도는 75%에 그쳤다. 이러한 결과는 수년간의 수련 과정을 거친 전문가의 눈이라 할지라도 정교한 생성형 모델에 대항하기에는 신뢰할 만한 방어 수단이 되지 못함을 시사한다. 이처럼 이미지를 제작하기는 쉬운 반면 식별하기는 매우 어렵다는 점은 향후 디지털 의료 기록의 무결성에 대한 신뢰 위기를 초래할 수 있다.
해당 연구는 AI 모델이 스스로 만든 결과물을 감지하는 데에도 서툴다는 '재귀적 실패'를 함께 지적했다. 텍스트와 시각 데이터를 동시에 처리하도록 설계된 네 가지 멀티모달 모델을 시험한 결과, 감지 정확도가 57%에서 85% 사이를 오가며 일관성 없는 성능을 보였다. 생성형 도구에 대한 접근성이 점차 높아짐에 따라 의료계는 AI의 진단적 이점을 통합하는 동시에, 임상 의사 결정의 근간이 되는 데이터를 보호해야 하는 이중 과제에 직면하게 되었다.