AI 자율 수행 능력, 89일마다 두 배씩 급성장
- •METR이 자율 능력 측정 지표인 '타임 호라이즌' 벤치마크 과제를 228개로 확대 업데이트했다.
- •최신 데이터 분석 결과, AI의 자율 수행 능력 배가 시간이 최근 89일까지 단축되며 급격한 가속도를 보이고 있다.
- •표준화된 테스트를 위해 평가 인프라를 영국 AI 안전성 연구소의 오픈소스 프레임워크인 'Inspect'로 전환했다.
연구 비영리 단체인 METR이 '타임 호라이즌(Time Horizon) 1.1'을 발표하며 AI 모델의 자율성 측정 기준을 대폭 강화했다. 타임 호라이즌은 AI가 인간의 개입 없이 독립적으로 작동할 수 있는 시간을 의미하며, 이번 업데이트를 통해 평가 과제는 170개에서 228개로 늘어났다. 특히 인간 기준으로 8시간 이상 소요되는 '장기 작업' 비중을 높여, 프런티어 모델들의 급격한 성능 발전을 더욱 정밀하게 포착하도록 설계됐다. 이는 결과적으로 AI 에이전트가 오류를 일으키거나 인간의 수정이 필요하기 전까지 완수할 수 있는 업무량을 측정하는 핵심 지표가 된다.
조사 결과에 따르면 AI의 자율 수행 능력은 가파른 지수적 성장을 거듭하고 있다. 자율 능력의 장기적인 배가 시간은 약 7개월 수준이었으나, 최근 데이터에서는 그 주기가 훨씬 빨라지는 추세다. 실제로 2024년 초부터 최상위 모델들의 성능 배가 시간은 새 지표 기준 약 89일까지 단축된 것으로 나타났다. 이러한 급성장은 단순히 대화에 응답하는 챗봇 단계를 넘어, 수 시간에 걸친 복잡한 워크플로우를 스스로 관리하는 에이전틱 AI로의 패러다임 전환이 본격화되고 있음을 시사한다.
평가 인프라 측면에서도 유의미한 변화가 포착됐다. METR은 자체 플랫폼인 'Vivaria'에서 영국 AI 안전성 연구소의 오픈소스 프레임워크인 'Inspect'로 전환하며 모델 안전성 테스트의 표준화를 꾀했다. GPT-4o 등 일부 모델은 플랫폼 변경에 따라 성능 수치에서 미세한 차이를 보였으나, 전체적인 성장 궤적은 일관되게 유지됐다. 현재 METR은 GPT-5나 Claude Opus 4.5와 같은 차세대 모델의 등장이 임박함에 따라, 며칠간 지속되는 더욱 복잡한 다단계 과제를 개발하여 평가 지표의 유효성을 확보하는 데 주력하고 있다.