Anthropic、極めて強力なサイバーセキュリティAIを制限
- •Anthropicは、極端なサイバー攻撃能力を持つAIモデル「Claude Mythos」の公開を制限した。
- •同モデルはOSやブラウザの脆弱性を自律的に発見・悪用することが可能である。
- •新プロジェクト「Project Glasswing」を通じ、テック大手と連携してシステムの保護を強化する。
AIの能力において転換点となる出来事が発生した。Anthropic(アンソロピック)は、同社最新かつ極めて強力なモデル「Claude Mythos」の一般公開を見送ることを決定した。多くのAI企業がモデルの計算能力を競う中、この決定はMythosがインターネット基盤の脆弱性を発見し、自律的に悪用できるという現実を直視した結果である。これは単なるバグ発見にとどまらず、複数の弱点を組み合わせることでシステムを完全に乗っ取る能力を示しており、かつては高度な専門家が長年かけて行っていた作業を瞬時に完結させる。
AI開発を追う者にとって、この事態は深刻だ。かつてセキュリティ界隈では、AIが生成する低品質な報告書がノイズとして問題視されていた。しかし、その時代は終わった。Linuxカーネルやcurlといった主要なオープンソースプロジェクトの管理者は、現在、 frontier model(最先端AIモデル)が生成する極めて正確かつ実用的な脆弱性レポートに圧倒されている。
Anthropicはこれに対応するため、「Project Glasswing」を始動した。Apple(アップル)、Microsoft(マイクロソフト)、Linux Foundation(リナックス財団)といった主要なパートナーと連携し、攻撃者が悪用する前にシステムを修復しようという試みだ。これは、現代社会における攻撃対象領域が我々の想像以上に拡大していることを示唆している。
Mythosの危険性は、複雑な攻撃チェーンを自律的に実行できる点にある。現代のセキュリティ対策であるKASLRを回避し、隠れたレースコンディションを突くことも可能だ。テストにおいて、このモデルはROP chainを構築してroot権限を奪取し、さらにはJIT heap sprayを利用してブラウザのコンパイラを悪用する攻撃も実証した。
このような制限措置を単なるマーケティング戦略と見る向きもあるが、実態は計算された慎重な対応といえる。開発者とハッカーの境界線は、我々が支援のために開発したツールによって曖昧になりつつある。AIの進歩は単なる線形的な発展ではなく、そのリスクも決して仮定の話ではない。今後、AI駆動型の脅威を予測し、防御する能力こそが、コンピュータサイエンスにおける最も重要なスキルとなるだろう。