この記事の要点は？

RSNAが、マルチモーダル大規模言語モデル（MLLM）の評価に向け、専門家が検証した200件の胸部X線画像データセット「REVEAL-CXR」を公開した。 GPT-4oとPhi-4-Reasoningを活用して初期ラベル付けを自動化し、その後放射線科医による厳格な検証を行うワークフローを採用した。データセットは公開用100件と評価用（ホールドアウト）100件で構成され、医療AIの公平な評価を可能にする。

RSNA、胸部X線AI評価用の新データセット「REVEAL-CXR」を公開

•RSNAが、マルチモーダル大規模言語モデル（MLLM）の評価に向け、専門家が検証した200件の胸部X線画像データセット「REVEAL-CXR」を公開した。
•GPT-4oとPhi-4-Reasoningを活用して初期ラベル付けを自動化し、その後放射線科医による厳格な検証を行うワークフローを採用した。
•データセットは公開用100件と評価用（ホールドアウト）100件で構成され、医療AIの公平な評価を可能にする。

•RSNAが、マルチモーダル大規模言語モデル（MLLM）の評価に向け、専門家が検証した200件の胸部X線画像データセット「REVEAL-CXR」を公開した。
•GPT-4oとPhi-4-Reasoningを活用して初期ラベル付けを自動化し、その後放射線科医による厳格な検証を行うワークフローを採用した。
•データセットは公開用100件と評価用（ホールドアウト）100件で構成され、医療AIの公平な評価を可能にする。

北米放射線学会（RSNA）は、汎用AIの能力と専門的な医療診断のギャップを埋めるための高品質なベンチマーク「REVEAL-CXR」を発表した。マルチモーダル大規模言語モデル（MLLM）は、専門医試験に合格するほどの高い潜在能力を見せている。しかし、専門家が精査したデータがなければ、実際の臨床現場での有用性を正確に測定することは困難であった。

今回のデータセットはこの課題を解決するために作成された。200件の胸部X線画像が含まれており、17名の専門放射線科医からなるパネルが、正解となる「グラウンド・トゥルース」の正確性を細部まで検証している。医療現場におけるAI評価の真空地帯を埋める重要な一歩となるはずだ。

ラベル付けという労働集約的なプロセスを効率化するため、研究チームはAI支援型のハイブリッドワークフローを導入した。まずOpenAIのGPT-4oで既存のレポートから異常所見を抽出。その後、論理的推論に最適化されたローカルモデル「Phi-4-Reasoning」を用いて特定の診断カテゴリにマッピングする手法をとった。

この半自動化パイプラインにより、専門家はゼロから作業するのではなく、AIの提案を検証することに集中できるようになった。その結果、人間の監視という「ゴールドスタンダード」を維持しつつ、作業効率を劇的に向上させている。

ベンチマークは、開発用の公開データ100件と、RSNAが独自評価用に保持するホールドアウトデータ100件に分かれている。希少な所見や複雑な臨床シナリオを優先的に収録した。医療という高リスクな環境において、AIの安全性を確認するための指標をAI自身を使って構築する。こうした業界の新たな潮流を象徴する取り組みと言えるだろう。