「デタラメ」を疑えないAI。新指標が明かすモデルの欠陥
- •BullshitBenchは、AIモデルが単に誤った回答をするのではなく、意味をなさない前提条件をどう処理するかを評価する指標である。
- •AnthropicのClaude 4.6が91%の拒絶率を記録して首位に立ち、GPT-5.4やGemini 3モデルを大幅に上回った。
- •思考時間を増やす「推論モード」は、妥当性を疑うよりも問題解決を優先するため、かえって検出精度を低下させる傾向がある。
AIモデルは、その自信に満ちた回答ぶりで知られているが、新たなベンチマーク「BullshitBench」により、一つの構造的な欠陥が明らかになった。それは、多くのモデルが意味をなさない前提条件を疑わずに受け入れてしまうという点である。従来のハルシネーション(幻覚)が事実を捏造する現象であるのに対し、この「デタラメの受容(nonsense acceptance)」は、根本的に破綻している質問や回答不可能な問いに対して、詳細かつ権威ある回答を返してしまう問題を指している。
80以上のモデルを対象とした調査では、開発元によってパフォーマンスに劇的な差があることが判明した。AnthropicのClaude 4.6は、ナンセンスなクエリの91%を拒絶することに成功し、圧倒的なリーダーとして浮上した。一方で、OpenAIのGPT-5.4やグーグルのGemini 3 Proといった主要モデルは苦戦しており、不備のある前提を指摘できた割合はいずれも半分以下にとどまった。さらに驚くべきことに、オープンソースモデルであるアリババのQwen 3.5が78%という高い検出率を記録し、批判的思考においてモデルの規模だけが決定的な要因ではないことを証明した。
最も意外な発見は、モデルが回答前に時間をかけて思考する「推論(reasoning)」モードに関するものだ。多くのモデルシリーズにおいて、この機能を有効にすると、むしろデタラメを見抜く能力が低下するという結果が出た。モデルは質問を精査する代わりに、増やされた計算リソースを費やして、無効な前提に対する精巧な正当化を作り上げてしまったのである。これは、現在のAIにおける「思考」が懐疑心よりも従順さに最適化されている可能性を示唆しており、AIの信頼性を向上させる上での大きな障壁となっている。