Meta AI、マルチモーダルAIの脆弱性を暴く「FERRET」を発表
2026年2月14日 (土)
- •Meta AIは、マルチモーダルな敵対的テストを自動化するフレームワーク「FERRET」を導入した。
- •このシステムは独自の拡張戦略を採用し、極めて効果的な会話のきっかけや攻撃手法を自動生成する。
- •FERRETは、マルチモーダルなターゲットモデルの脆弱性を突く性能において、既存の最先端手法を上回る。
Meta AIの研究員であるニナレ・メラビ(Ninareh Mehrabi)氏らは、AIモデルが悪用される前に脆弱性を発見するためのプロセス「レッドチーミング」を自動化する高度なフレームワーク「FERRET」を発表した。手作業やテキストのみのプロンプトに頼ることが多い従来のテスト手法とは異なり、FERRETはマルチモーダルな敵対的対話に焦点を当てている点が特徴だ。つまり、単なる言葉の羅列ではなく、画像とテキストを組み合わせた複雑な相互作用を構築することで、ターゲットとなるモデルを誘導して不適切あるいは誤った応答を生成させるのである。
このフレームワークは、攻撃戦略を段階的に洗練させる一連の「拡張」プロセスを通じて動作する。まず「水平展開」によってレッドチーム側のモデルが自己改善を行い、より効果的な会話のきっかけを生成することを学ぶ。次に「垂直展開」がそのきっかけを基に、完全なマルチモーダル対話へと発展させる。さらに「メタ展開」フェーズを導入することで、会話の進行に合わせてリアルタイムで攻撃戦略を適応させることが可能となり、ターゲットモデルがこれらの敵対的な試みに抵抗することを極めて困難にしている。
こうした複雑なテストサイクルを自動化することで、FERRETはAI安全性を確保する上で大きな一歩を踏み出した。実際の比較テストにおいて、このフレームワークは既存の最先端アプローチを凌駕する性能を示し、ターゲットモデルの脆弱性をより効率的に暴くことに成功している。AIモデルがますますマルチモーダル化し、重要なデジタル環境へと統合される中で、今回の研究は自動化された安全ツールの必要性がかつてないほど高まっていることを浮き彫りにした。