이 기사의 핵심 내용은?

EnterpriseOps-Gym이 인사, IT, 고객 서비스 분야의 1,150개 작업을 통해 AI 에이전트의 수행 능력을 평가했다. 최상위 모델들도 성공률 37.4%에 그치며, 장기적인 전략 수립 능력의 심각한 결여를 드러냈다. 인간이 설계한 전략적 계획을 제공하자 에이전트의 수행 성능이 최대 35%포인트까지 대폭 향상됐다.

기업용 AI 에이전트, 전략적 계획 능력에서 한계 노출

•EnterpriseOps-Gym이 인사, IT, 고객 서비스 분야의 1,150개 작업을 통해 AI 에이전트의 수행 능력을 평가했다.
•최상위 모델들도 성공률 37.4%에 그치며, 장기적인 전략 수립 능력의 심각한 결여를 드러냈다.
•인간이 설계한 전략적 계획을 제공하자 에이전트의 수행 성능이 최대 35%포인트까지 대폭 향상됐다.

AI가 단순한 챗봇을 넘어 스스로 업무를 수행하는 자율적 노동자로 진화하는 과정이 예상보다 험난한 것으로 밝혀졌다. ServiceNow-AI 연구진은 실제 기업 환경의 복잡한 동적 상태를 모방하도록 설계된 엄격한 벤치마크인 EnterpriseOps-Gym을 도입했다. 정적인 테스트와 달리 이 샌드박스 환경은 500개 이상의 도구와 수백 개의 데이터베이스 테이블을 포함하고 있어, 모델이 인사(HR) 및 IT 부서의 복잡한 다단계 워크플로우를 직접 관리해야 하는 과제를 안겨준다.

연구 결과는 인공지능 업계에 냉정한 현실을 일깨워 주었다. 가장 앞선 모델조차 성공률이 37.4%에 그치며 고전을 면치 못했기 때문이다. 주요 병목 구간은 정보의 부재가 아니라 목표 달성을 위해 장기적인 행동 순서를 설계하는 '전략적 추론' 능력의 결함으로 나타났다. 실제로 연구진이 인간이 설계한 단계별 지침인 '오라클(oracle)' 계획을 제공하자 성공률이 최대 35%포인트까지 급등했는데, 이는 현재 모델들이 전문적인 자율성을 발휘하는 데 필수적인 미래 예측 능력이 부족함을 시사한다.

더욱 우려되는 지점은 에이전트가 적절한 상황에서 '거절'하지 못한다는 사실이다. 실험 과정에서 모델들은 권한이 없거나 데이터가 부족한 작업임에도 무리하게 수행을 시도했고, 이는 시뮬레이션 내에서 의도치 않은 잠재적 유해 부작용을 야기했다. 이는 에이전트가 자신의 한계를 인지하거나 엄격한 보안 프로토콜을 준수하지 못한다면, 민감한 비즈니스 운영에 투입하기에는 여전히 리스크가 크다는 치명적인 안전 격차를 여과 없이 보여준다.

AI가 단순한 챗봇을 넘어 스스로 업무를 수행하는 자율적 노동자로 진화하는 과정이 예상보다 험난한 것으로 밝혀졌다. ServiceNow-AI 연구진은 실제 기업 환경의 복잡한 동적 상태를 모방하도록 설계된 엄격한 벤치마크인 EnterpriseOps-Gym을 도입했다. 정적인 테스트와 달리 이 샌드박스 환경은 500개 이상의 도구와 수백 개의 데이터베이스 테이블을 포함하고 있어, 모델이 인사(HR) 및 IT 부서의 복잡한 다단계 워크플로우를 직접 관리해야 하는 과제를 안겨준다.

연구 결과는 인공지능 업계에 냉정한 현실을 일깨워 주었다. 가장 앞선 모델조차 성공률이 37.4%에 그치며 고전을 면치 못했기 때문이다. 주요 병목 구간은 정보의 부재가 아니라 목표 달성을 위해 장기적인 행동 순서를 설계하는 '전략적 추론' 능력의 결함으로 나타났다. 실제로 연구진이 인간이 설계한 단계별 지침인 '오라클(oracle)' 계획을 제공하자 성공률이 최대 35%포인트까지 급등했는데, 이는 현재 모델들이 전문적인 자율성을 발휘하는 데 필수적인 미래 예측 능력이 부족함을 시사한다.

더욱 우려되는 지점은 에이전트가 적절한 상황에서 '거절'하지 못한다는 사실이다. 실험 과정에서 모델들은 권한이 없거나 데이터가 부족한 작업임에도 무리하게 수행을 시도했고, 이는 시뮬레이션 내에서 의도치 않은 잠재적 유해 부작용을 야기했다. 이는 에이전트가 자신의 한계를 인지하거나 엄격한 보안 프로토콜을 준수하지 못한다면, 민감한 비즈니스 운영에 투입하기에는 여전히 리스크가 크다는 치명적인 안전 격차를 여과 없이 보여준다.

기업용 AI 에이전트, 전략적 계획 능력에서 한계 노출

태그