Anthropic、AI評価用OSS「Bloom」を公開
- •Anthropicが特定の行動特性や不整合を測定するエージェント型フレームワーク「Bloom」をオープンソース化
- •シナリオ生成からスコアリングまでを自動化する4段階のパイプラインにより、16の先端モデルを評価
- •構成ファイルを用いて、お世辞(sycophancy)やサボタージュなどの行動頻度と深刻度を定量化
Anthropicは、AIモデルの行動評価プロセスを自動化するために設計されたオープンソースのエージェント型フレームワーク「Bloom」をリリースした。広範な問題を特定する従来の監査とは異なり、Bloomは研究者が定義した特定の特性の測定に焦点を当てている。「理解(Understanding)」、「着想(Ideation)」、「展開(Rollout)」、「判定(Judgment)」という構造化された4段階のパイプラインを使用し、多様なシナリオを生成してモデルが特定の行動をどの程度の頻度で示すかを定量化する。これにより、研究者は手動のエンジニアリングを省略し、異なるシステム間での複雑な傾向の測定に直接移行できる。 このシステムは、AIエージェントを使用してまず行動の説明を理解し、次に具体的なテストシナリオを着想し、最後にモデルがシミュレーション環境と対話する展開を実行することで機能する。その後、判定モデルがこれらの対話をスコアリングし、行動の有無と深刻度を判断する。Anthropicの研究者はBloomを使用して、真実に関わらずユーザーが望むことを言う「妄想的な追従(delusional sycophancy)」や「長期的なサボタージュ」といった特性について、16の先端LLMをベンチマーク評価した。 Bloomは、最近リリースされた別のツール「Petri」を補完することを目的としている。Petriが新しいタイプの不整合を発見する監査役として機能するのに対し、Bloomは精度と測定のために構築されている。これは、モデルの能力が向上するにつれて、モデルの整合性が高まっているか、あるいは低下しているかを研究者が理解するのに役立つ。このツールをオープンソース化することで、Anthropicは研究コミュニティに対し、モデルのスケールに伴って発生する予期せぬ行動である「創発特性」を追跡し、開発サイクル全体を通じてAIセーフティを確保するための標準化された手法を提供することを目指している。 フレームワークは、評価プロセスのDNAのように機能するシードファイルを介して高度に構成可能である。これらのファイルは、各段階で使用される行動、例、およびモデルを指定する。この再現性により、異なるチームや期間にわたって指標を公正に比較することが可能になる。このツールは現在GitHubで公開されており、対話形式のテストと、より複雑なシミュレーションによるツール利用環境の両方をサポートしている。