MIT、AIの予測根拠を明文化する新技術
2026年3月9日 (月)
- •AIの予測プロセスを自然言語で説明する新技術をMITの研究チームが発表した。
- •スパース・オートエンコーダーとマルチモーダルLLMを組み合わせ、人間が理解可能な概念を特定する。
- •安全性が重視される分野において、高い精度を維持しつつ情報の漏洩を防ぐことが可能だ。
医療現場や自動運転など、高い信頼性が求められる環境において、AIの予測根拠を把握することは極めて重要だ。これを受け、MITの研究チームは従来のコンセプト・ボトルネック・モデルを改良し、モデルの内部処理を読み解く高度な手法を開発した。これまでのシステムは、皮膚病変の診断時に「茶色の点」を識別させるなど、人間が定義した概念の使用をモデルに強制するのが一般的であった。
しかし、人間が定義した概念だけではモデルが捉える細かなニュアンスを反映しきれず、精度の低下や情報の漏洩を招く懸念があった。そこでMITの新手法は「スパース・オートエンコーダー」を活用し、モデルが学習過程で自ら獲得した特徴を直接特定する。これにより、モデル独自の視点を損なうことなく、より正確な解析が可能になる。
抽出された特徴はマルチモーダルLLMによって、人間が検証可能な日常言語へと翻訳される仕組みだ。この構造はモデルが予測に使用する概念を限定するため、結果として簡潔な説明が生成される。従来のブラックボックス型モデルに比べるとわずかな精度差はあるものの、説明責任を果たせるAIの実現に向けた大きな進歩と言えるだろう。