Anthropic、脱獄を99.9%防ぐ新防御システム発表
2026年1月25日 (日)
- •Anthropicが「Constitutional Classifiers++」を導入。低遅延で99.9%のジェイルブレイク試行を阻止する。
- •応答生成前に「線形プローブ」を用いて有害な意図を検知する、新しいカスケード・アーキテクチャを採用。
- •複雑な攻撃への防御力を維持しながら、無害なクエリに対する誤拒否率を87%削減した。
Anthropicは、AIのガードレールを回避する「ジェイルブレイク(脱獄)」を防ぐための大幅なシステム・アップグレード、「Constitutional Classifiers++」を公開した。これまでのセキュリティ機能も有害な出力を減らす効果はあったが、モデルの動作速度を低下させ、無害な質問まで誤って拒否してしまうといった使い勝手の悪さが課題となっていた。今回のアップデートでは「カスケード・アーキテクチャ」を導入。2段階の選別プロセスによって、検問所のように効率的なフィルタリングを実現している。 第1段階では「線形プローブ」を用いて、モデル内部のニューラル活動を監視する。いわばClaudeが最終的な回答を出す前にその「直感」を先読みし、有害なパターンを検知する仕組みだ。この手法は計算コストをわずか1%程度しか増加させないため、極めてリソース効率が良い。もし不審な信号が検知された場合は、ユーザーの指示とモデルの回答の両方を詳しく分析する、より高度な分類器へと処理が引き継がれる。 この文脈を考慮したアプローチは、比喩や隠語を使って危険な要求を隠す「難読化攻撃」を防ぐ上で極めて重要だ。例えば、有害な化学物質の代わりに「食品の調味料」という言葉を使っても、会話の履歴全体を分析することで隠れた意図を見抜くことができる。その結果、安全性は向上しつつも誤拒否は87%も減少した。ユーザーにとっては、より安全でストレスのないAI体験が可能となった。