SkillsBench: 인간의 노하우가 모델의 체급을 압도하다
- •SkillsBench는 86개 작업에서 인간이 정제한 지식과 AI가 직접 생성한 지식의 성능 차이를 평가했다.
- •인간이 큐레이션한 스킬을 사용할 경우 성공률이 16.2% 향상되어, 소형 모델이 대형 모델을 앞지르는 결과가 나타났다.
- •AI 모델은 효과적인 자기 스킬 생성에 실패하며, 지시를 따르는 능력과 지시를 만드는 능력 사이의 간극을 드러냈다.
AI 에이전트의 패러다임이 단순한 연산 능력에서 절차적 지식을 구조화한 '스킬(Skills)' 중심으로 이동하고 있다. 리샹이(Xiangyi Li) 연구원 등이 참여한 연구진은 이러한 스킬의 실질적인 효과를 측정하기 위해 11개 분야, 86개 작업에 걸친 종합 평가 프레임워크인 SkillsBench를 도입했다. 연구 결과, 에이전트가 인간이 정제한 가이드를 따를 때는 성능이 비약적으로 발전하는 반면, 스스로 절차를 작성해야 할 때는 상당한 어려움을 겪는다는 극명한 대조가 확인되었다.
특히 이번 연구에서는 적절한 '스킬'의 제공이 모델의 크기를 보완하는 강력한 대체재가 될 수 있음이 밝혀졌다. 실제로 인간의 스킬을 장착한 소형 모델 Claude 4.5 Haiku가 스킬 없이 구동된 거대 모델 Claude 4.5 Opus의 성능을 압도하는 이변이 발생했다. 이는 헬스케어 혹은 소프트웨어 공학 같은 실무 분야에서 파라미터 수보다 정밀하게 설계된 지침이 훨씬 더 가치 있다는 사실을 시사한다. 다만 모델이 스스로 행동 전 지침을 만드는 '자기 생성' 스킬의 경우, 오히려 성능이 소폭 하락하는 양상을 보였다.
이러한 '지식의 간극'은 최신 모델조차 내부 지식을 신뢰할 수 있는 절차로 요약하는 메타 인지 능력이 부족하다는 점을 보여준다. 이에 따라 개발자들에게는 방대한 매뉴얼을 에이전트의 컨텍스트에 무작정 주입하기보다, 2~3개의 모듈로 구성된 집중화된 문서화 방식이 훨씬 효과적이라는 결론이 도출된다. 결국 에이전틱 AI의 미래는 신경망 구조만큼이나 인간의 전문성을 바탕으로 지식을 큐레이션하는 능력에 달려 있음을 SkillsBench는 상기시키고 있다.