この記事の要点は？

Preferred Networks、GPT-5ベースのWebエージェントでWorkArena Level 2にてSOTAを達成。過去のログから「Web知見」を要約し、ブラウザ操作のミスを防ぐ新手法を導入。ループ検出とモデル切り替えによるリトライ戦略で、ベースライン比11.5%の性能向上を実現。

知見の蓄積とリトライによるWebエージェントの性能改善

•Preferred Networks、GPT-5ベースのWebエージェントでWorkArena Level 2にてSOTAを達成。
•過去のログから「Web知見」を要約し、ブラウザ操作のミスを防ぐ新手法を導入。
•ループ検出とモデル切り替えによるリトライ戦略で、ベースライン比11.5%の性能向上を実現。

Preferred Networks（PFN）の夏季インターンシップにて、Webブラウザを自律的に操作して複雑な業務を遂行する「Webエージェント」の性能を劇的に向上させる新手法が公開されました。研究チームは、ServiceNowなどの業務アプリケーション操作を模した難易度の高いベンチマーク「WorkArena」を対象に、最新の基盤モデルである「gpt-5-mini」をベースとしたエージェントの挙動を詳細に分析しました。その結果、従来のモデルでは困難だった複雑な条件分岐を含むタスクにおいて、大幅な精度改善とSOTA（State of the Art）の達成を報告しています。

Webエージェントが直面する大きな課題は、画面上のボタンの役割を誤解する「操作ミス」と、同じアクションを繰り返して進行が止まる「無限ループ」です。これに対し、本研究では過去の成功・失敗ログから抽出した知見を抽象化して再利用する「Web知見の蓄積」を提案しました。具体的には、特定のUI操作に関する「意図（Intent）」「正しい操作（OK）」「誤った操作（NG）」をペアにして要約し、エージェントの推論時に補助情報として提供します。これにより、エージェントは未知のWebページであっても、過去の他タスクでの経験を汎用的なガイドとして活用し、迷いのない操作が可能になりました。

また、システムの堅牢性を高める「リトライ戦略」も極めて効果的です。エージェントがループ状態や、タスク未完了のまま終了を宣言する「完了誤認」に陥った際、履歴を数ステップ分巻き戻し、一時的にベースモデルをClaude-3.7-Sonnetなど別のモデルに切り替えて再実行させます。推論の癖が異なるモデルを「助っ人」として起用することで、一つのモデルでは突破できなかった論理的な袋小路を回避する仕組みです。このアプローチは、AIエージェントが単なる命令実行ツールから、自己のミスを検知し修正する「自律的な作業パートナー」へと進化する重要な一歩を示しています。

Preferred Networks（PFN）の夏季インターンシップにて、Webブラウザを自律的に操作して複雑な業務を遂行する「Webエージェント」の性能を劇的に向上させる新手法が公開されました。研究チームは、ServiceNowなどの業務アプリケーション操作を模した難易度の高いベンチマーク「WorkArena」を対象に、最新の基盤モデルである「gpt-5-mini」をベースとしたエージェントの挙動を詳細に分析しました。その結果、従来のモデルでは困難だった複雑な条件分岐を含むタスクにおいて、大幅な精度改善とSOTA（State of the Art）の達成を報告しています。

Webエージェントが直面する大きな課題は、画面上のボタンの役割を誤解する「操作ミス」と、同じアクションを繰り返して進行が止まる「無限ループ」です。これに対し、本研究では過去の成功・失敗ログから抽出した知見を抽象化して再利用する「Web知見の蓄積」を提案しました。具体的には、特定のUI操作に関する「意図（Intent）」「正しい操作（OK）」「誤った操作（NG）」をペアにして要約し、エージェントの推論時に補助情報として提供します。これにより、エージェントは未知のWebページであっても、過去の他タスクでの経験を汎用的なガイドとして活用し、迷いのない操作が可能になりました。

また、システムの堅牢性を高める「リトライ戦略」も極めて効果的です。エージェントがループ状態や、タスク未完了のまま終了を宣言する「完了誤認」に陥った際、履歴を数ステップ分巻き戻し、一時的にベースモデルをClaude-3.7-Sonnetなど別のモデルに切り替えて再実行させます。推論の癖が異なるモデルを「助っ人」として起用することで、一つのモデルでは突破できなかった論理的な袋小路を回避する仕組みです。このアプローチは、AIエージェントが単なる命令実行ツールから、自己のミスを検知し修正する「自律的な作業パートナー」へと進化する重要な一歩を示しています。

知見の蓄積とリトライによるWebエージェントの性能改善

タグ