MIT、AIの「自信満々な誤答」を見抜く新指標を開発
- •MITとIBMの研究チームが、モデルが自信を持って誤るケースを特定する指標「Total Uncertainty」を導入した。
- •モデルの自己一貫性と他モデルとの不一致を組み合わせ、認識的不確実性と偶然性不確実性の両面を測定する。
- •複雑な推論や数学タスクにおいて、従来のハルシネーション検出手法を上回る精度を実証した。
大規模言語モデル(LLM)は、もっともらしい口調で完全に誤った情報を生成する「自信満々な間違い」という深刻な課題を抱えている。現在の信頼性チェックは、同じ質問を繰り返して回答の整合性を確認する「自己一貫性」に主眼を置いているが、これは内部的な確信度、すなわち「偶然性不確実性」を測るにすぎない。その結果、モデルが特定のタスクに対して根本的に能力不足であるような事態を正確に検知できないのが現状だ。
こうした限界を打ち破るべく、MIT准教授のマージイ・ガセミ(Marzyeh Ghassemi)氏をはじめとするMIT-IBM Watson AI Labの研究チームは、新たに「Total Uncertainty(TU)」という指標を開発した。この手法は、特定の課題に対して適切なモデルが使われているかを評価する「認識的不確実性」という概念を取り入れている。一つのAIの意見に依存するのではなく、ターゲットとなるモデルの回答を、異なる開発元による複数の類似モデル(アンサンブル)から得られた回答群と比較するのが特徴だ。
研究チームは、これら多様な回答間の意味的な類似性を測定することで、単一のモデルが自信満々に提示する「ハルシネーション(幻覚)」をあぶり出すことに成功した。数学的推論や事実に基づく質疑応答など、10件の現実的なタスクを用いた実験では、この統合的なアプローチが現在の業界標準よりもはるかに高い精度で信頼性の低い予測を特定できることが示された。特に、複雑な論理展開が必要な場面でその真価を発揮している。
この技術革新は、ユーザーがAIの出力をどの程度信頼すべきか判断しやすくなるだけでなく、計算コストの削減にもつながる。モデル間の照合プロセスは、従来の膨大な試行回数を必要とするテストよりも少ないクエリ数で済むことが多いためだ。これにより、医療や金融といった一分の隙も許されない高リスクな分野において、より効率的で信頼性の高いAIシステムを構築するための実用的な道筋が示されたと言えるだろう。