Anthropic、AI安全性技術の限界を指摘
2026年3月7日 (土)
- •Anthropicの研究チームが、AI制御における「教師なし抽出」と「Easy-to-hard汎化」に関する3つの重大な失敗を特定した。
- •擬似的な特徴量や不均衡なデータセットにより、現在の真実検出プロービング手法の精度が著しく低下している。
- •教師なし手法とアンサンブル学習の組み合わせは可能性を示すものの、信頼できる安全性保証の提供には至っていない。
Anthropicの研究チームは、人間の専門知識を超えるタスクにおいて、モデルから真実の知識を引き出す技術である「教師なし抽出」を検証した重要な調査結果を公開した。AIシステムが高度な数学や複雑なコーディングなどの難題に取り組むようになるにつれ、人間の監督者がその正確性を客観的に判断することはもはや困難になっている。これによって生じる「監督のギャップ」を埋めるため、研究者たちは簡単なタスクで学習させ困難なタスクへと能力を拡張させる「Easy-to-hard汎化」や、ラベルを使わずに内部パターンを特定する手法を模索してきた。
しかし、調査の結果として3つの大きな障害が明らかになった。まず、モデルは「ユーザーが聞きたがっている回答」などの本質的ではないが目立つ特徴量に固執する傾向がある。また、不均衡なデータセットでのパフォーマンス低下や、「解決不能なタスク」に対して不確実性を表現できないといった課題も浮き彫りとなった。例えば、データセットに正解よりも不正解が多く含まれる場合、標準的な教師なし手法は頻繁に破綻する。アンサンブル法などの改善策を導入した場合でも、あらゆるシナリオで堅牢に機能する技術は見つかっていない。
本研究は、AIアライメントの未来における厳しい現実を突きつけている。内部的なプロービングによって、モデルが単に「述べていること」と実際に「知っていること」を区別できる可能性はあるが、それらの信号は多くの場合、より支配的なパターンの下に埋もれてしまっている。人間による監視を超えてモデルの真実性を保証するには、高次元のニューラル表現の中でいかに「真実」を優先させるかという、根本的なアプローチの転換が必要である。