PFN, 지식 축적과 리트라이로 Web 에이전트 성능 극대화
- •Preferred Networks(PFN), GPT-5 기반 Web 에이전트로 WorkArena Level 2에서 SOTA 달성
- •과거 로그에서 'Web 지식'을 요약해 브라우저 조작 오류를 방지하는 신규 기법 도입
- •루프 탐지 및 모델 교체 전략을 통해 베이스라인 대비 성능을 11.5% 향상
Preferred Networks(PFN)의 하계 인턴십을 통해 웹 브라우저를 자율적으로 조작해 복잡한 업무를 수행하는 'Web 에이전트'의 성능을 획기적으로 높인 신규 기법이 공개됐다.
연구팀은 ServiceNow 등 비즈니스 애플리케이션 조작을 모방한 고난도 벤치마크인 'WorkArena'를 대상으로 최신 파운데이션 모델인 GPT-5-mini 기반 에이전트의 행동을 정밀 분석했다.
그 결과, 기존 모델이 어려움을 겪던 복잡한 조건 분기 태스크에서 정확도를 대폭 개선하며 SOTA(State of the Art)를 달성했다.
Web 에이전트가 마주하는 가장 큰 과제는 화면 내 버튼의 역할을 오해하는 '조작 실수'와 동일 액션을 반복하며 멈추는 '무한 루프'다.
이에 본 연구는 과거의 성공과 실패 로그에서 추출한 지식을 추상화하여 재사용하는 'Web 지식 축적' 방식을 제안했다.
특정 UI 조작에 대한 '의도(Intent)', '올바른 조작(OK)', '잘못된 조작(NG)'을 쌍으로 요약해 에이전트의 추론 시 보조 정보로 제공하는 방식이다.
덕분에 에이전트는 생소한 웹 페이지에서도 과거의 경험을 범용 가이드로 활용해 막힘없이 작업을 수행한다.
시스템의 견고함을 높이는 '리트라이 전략' 역시 매우 효과적이다.
에이전트가 루프 상태에 빠지거나 태스크를 마치지 않고 종료를 선언하는 '완료 오인'이 감지되면, 히스토리를 몇 단계 되돌린 뒤 Claude-3.7-Sonnet 등 다른 모델로 교체해 재실행한다.
추론의 습성이 다른 모델을 '구원 투수'로 기용함으로써 단일 모델이 빠지기 쉬운 논리적 함정을 회피하는 구조다.
이 접근법은 에이전틱 AI가 단순한 명령 수행 도구를 넘어 자신의 실수를 스스로 교정하는 '자율적 파트너'로 진화하는 중요한 이정표를 제시했다.