医療AI、現実の対話で精度が大幅低下
2026年3月11日 (水)
- •AIの診断精度が実験室での95%から対人環境では35%へと急落
- •最新のAIよりも従来の検索エンジンの方が医療診断において高い成果を発揮
- •症状説明のわずかな表現の違いがAIによる危険な誤診を誘発
最新の大規模言語モデルは、管理された実験環境では極めて精密な診断を下すことができる。しかし、実際の人間特有の振る舞いに直面すると、その性能には驚くべき格差が生じることが新たな研究で明らかになった。医学誌『Nature Medicine』に掲載された研究によると、構造化された環境下で95%に達していた診断精度は、人間のボランティアとの対話形式になると35%未満にまで落ち込んだという。この乖離は、情報を断片的に伝えるといった患者特有の会話習慣が、高度なAIアーキテクチャを混乱させているというコミュニケーションの欠陥を浮き彫りにしている。
このリスクは単なる学術的な問題に留まらず、生死に関わる可能性を孕んでいる。研究チームは、症状を「ひどい頭痛」と表現するか「人生で最悪の頭痛」と表現するかといった、些細な言語的ニュアンスの違いが、AIの回答を劇的に変化させることを観察した。ある事例では、後者に対して脳卒中を正しく特定した一方で、前者には片頭痛を示唆した。こうした助言は、命を救うための治療を遅らせる恐れがある。その結果、安全管理団体は医療用AIチャットボットを「2026年における健康技術の重大な脅威」の一つに指定した。
意外なことに、AIチャットボットに相談した参加者よりも、従来の検索エンジンを利用した参加者の方が、診断精度が高いという結果が出た。これは、AIが膨大な知識を有している一方で、その推論プロセスがブラックボックス問題を抱えており、無関係な詳細情報に左右されやすいことが、厳選された検索結果よりも信頼性を欠く原因であることを示唆している。この課題を克服するには、プロンプト・エンジニアリングの根本的な改善や、会話の不確実性に対応するための新たなトレーニング手法が必要となるだろう。