AWS、AIエージェント評価用のActorSimulatorを発表
- •AWSが自律型AIエージェントの複雑なマルチターン評価を自動化する「ActorSimulator」を導入した
- •現実的で予測不能な人間の対話パターンを模倣した、目標指向のペルソナを動的に生成する
- •Strands Evaluation SDKとの統合により、目標達成率の系統的な追跡と透明性の確保が可能となった
AIエージェントの評価は、これまで単発の問いかけに対する回答を個別に判断する「シングルターン」のテストに依存しがちであった。しかし、実際のユーザーは一つの回答が次の展開を左右するマルチターンの対話を行うため、従来の静的なテストでは文脈の連鎖が生み出す課題を十分に捉えきれない。そこでAWSは、固定されたスクリプトに頼らず、現実的かつ目標指向のユーザーをプログラムでシミュレートする「ActorSimulator」をStrands Evaluation SDK内に導入し、このギャップを埋めようとしている。
ActorSimulatorは、単なるプロンプトの集合体ではなく、LLMを活用して特定の属性を持つ動的な「アクター」を生成する。例えば、予算を気にする旅行者や技術専門家といったペルソナを構築できるのが特徴だ。これらのアクターは、一貫したコミュニケーションスタイルを維持しながら、複雑な予約問題の解決といった定義された目標に向けて粘り強く対話を継続する。このアプローチにより、追加の質問や説明の要求、あるいは突然の話題転換といった、人間の会話特有の予測不能な展開に対してエージェントの適応力を試すことが可能になる。
さらに、システムは目標が達成されたかどうかを追跡し、シミュレートされた各行動に対して構造化された推論を提供する。これにより、対話が成功または失敗した理由の透明性が確保される仕組みだ。またOpenTelemetryとの統合によって、開発者は対話全体におけるツール呼び出しやモデルの挙動の詳細なトレースを取得できる。この自動化された手法により、エンジニアリングチームは膨大な人的コストをかけることなくテストを拡張でき、時間の経過とともにエージェントが複雑なニーズを見失う箇所を効果的に特定できるようになった。