Anthropic、AI安全性評価を自動化する「Bloom」を公開
2026年1月25日 (日)
- •AnthropicがAIの行動評価を自動化するオープンソースの「エージェント型フレームワーク」を発表した
- •4段階のパイプラインにより、モデルのアライメント行動の生成、シミュレーション、スコアリングを実行する
- •人間との相関性は0.86に達し、90%の精度で不適切な挙動を示すモデルを特定することに成功した
Anthropicは、最先端AIモデルの行動評価という過酷なプロセスを自動化する、高度なオープンソースフレームワーク「Bloom」を発表した。従来の安全性テストは静的なデータセットに依存しがちであり、モデルが学習過程でそれらを「暗記」してしまうことでテストが形骸化する課題があった。BloomはAIエージェントを活用し、研究者が指定した行動記述に基づいて全く新しいシナリオを動的に生成する。これにより、常に新鮮で難易度の高い評価が可能になるのだ。 システムは4段階のエージェント型パイプラインで機能する。まず特定の行動を解釈し、多様なテストケースを立案する。次に、エージェントがユーザー役となって対話型シミュレーションを行い、最終的に「判定モデル」が結果をスコアリングする。この自動化アプローチにより、「自己保存」や「長期的なサボタージュ」といった複雑で危険な特性の定量化が、数ヶ月ではなくわずか数日で完了する。 16の最先端モデルを用いた検証では、Bloomの自動スコアが人間の専門家と0.86という高いスピアマン相関係数で一致することが示された。特筆すべきは、標準的なモデルと「モデル生物(危険な特性を出すよう促されたAI)」を正確に識別し、微妙なアライメントのズレを特定できた点だ。今回のリリースは、AIツールを用いて別のAIを監視・評価する「スケーラブルな監視」の実現に向けた大きな一歩となるだろう。