Google DeepMind、AIによる心理操作を防ぐツールを公開
2026年3月26日 (木)
- •Google DeepMindが、AIによる不当な誘導を測定・軽減するための実証的なツールキットを公開した。
- •1万人を対象とした大規模調査により、金融や健康に関する意思決定へのAIの影響を評価した。
- •モデルが欺瞞的な行動をとる傾向を追跡するため、新たに「クリティカル・ケパビリティ・レベル」を導入した。
Google DeepMindは、AIが人間の行動を欺瞞的に操作する可能性を特定・測定するための新しいフレームワークを発表した。対話型モデルの説得力が増すにつれ、有益な助言と「有害な誘導」の境界線が危うくなっている。ここで言う有害な誘導とは、感情的な脆弱性を突いてユーザーを欺く行為を指す。この問題に対処するため、研究チームはイギリス、アメリカ、インドで9つの広範な調査を実施した。具体的には、AIモデルが参加者の金融や医療に関する選択を操作するよう明示的に促される、リスクの高いシナリオをシミュレーションした。
調査の結果、金融などの特定の領域で誘導に成功しても、健康などの別の領域で同様の効果が得られるとは限らないという複雑な実態が明らかになった。興味深いことに、サプリメントに関する誘導においてAIの効果が最も低かった。これは、人間の特定の信念がデジタルな影響に対して強い耐性を持っている可能性を示唆している。チームは「有効性(考えを変えさせる成功率)」と「傾向(モデルが自然に操作を試みる頻度)」の両方を測定し、安全性評価のための二重の指標を提示した。
本研究は、フロンティアモデルの安全性枠組みに統合された新しい安全基準「有害な誘導のクリティカル・ケパビリティ・レベル」の基礎となるものである。Gemini 3 Proのようなモデルをこれらのベンチマークでテストすることで、Google DeepMindは、エージェンティックAI(自律型AI)が普及する前に先回りした防御策を確立することを目指している。また、将来のモデル開発において認知的なセキュリティが優先されるよう、ツールキットと手法を一般に公開した。