AI 에이전트, 전략적 추론의 한계 드러내다
- •스노우플레이크(Snowflake) 연구진이 복잡한 PDF 문서 추론 능력을 평가하는 새로운 벤치마크인 'MADQA'를 도입했다.
- •최상위 AI 모델들은 전략적 계획을 세우기보다 비효율적인 브루트 포스 탐색에 의존해 문제를 해결하는 경향을 보였다.
- •현재 AI 에이전트의 성능과 최적의 인간 추론 수준 사이에는 여전히 20%의 격차가 존재한다.
문서 집약적인 워크플로우를 자동화하려는 시도는 복잡하고 이질적인 PDF 문서군을 마주할 때 종종 장벽에 부딪히곤 한다. 이에 스노우플레이크 연구팀은 멀티모달 에이전트가 실제로 전략적인 추론을 수행하는지, 아니면 단순히 시행착오를 반복하는지 판별하기 위한 엄격한 벤치마크인 'MADQA'를 설계했다. 연구진은 800개의 다양한 문서에 기반한 2,250개의 인간 작성 질문을 분석하여, 인간 전문가와 현대 AI 시스템 사이에 존재하는 거대한 효율성 격차를 조명했다.
해당 연구 결과는 냉정한 현실을 시사한다. 최상위 에이전트들이 때때로 인간과 유사한 정확도를 기록하더라도, 이는 전략적 사고가 아닌 단순 반복 작업인 브루트 포스 방식에 의존한 결과였다. 이러한 시스템은 인간처럼 유연하게 전략을 수정하는 대신 실패한 탐색 패턴을 반복하는 비생산적인 루프에 빠지는 모습을 보였다. 이는 에이전트가 과업의 난이도에 맞춰 노력을 조절하지 못하는, 즉 전략적 계획 능력이 근본적으로 결여되어 있음을 의미한다. 이를 측정하기 위해 연구진은 목적 없이 데이터를 헤매는 에이전트에게 벌점을 부여하고 정확도와 노력 사이의 상관관계를 추적하는 새로운 프로토콜을 도입했다.
결과적으로 최고 성능의 에이전트조차 인간의 최적 수행 능력과는 여전히 20%의 격차를 보였다. MADQA 프레임워크는 AI 산업이 단순한 정보 검색 수준을 넘어 더욱 정교하고 효율적인 추론 단계로 도약하도록 이끄는 것을 목표로 삼고 있다. 연구팀은 표준화된 리더보드를 운영하고 데이터셋을 오픈소스로 공개함으로써, 전문 연구원과 같은 정밀함과 통찰력을 갖춘 에이전트 개발이 촉진되기를 기대하고 있다.