이 기사의 핵심 내용은?

SkillsBench는 86개 작업에서 인간이 정제한 지식과 AI가 직접 생성한 지식의 성능 차이를 평가했다. 인간이 큐레이션한 스킬을 사용할 경우 성공률이 16.2% 향상되어, 소형 모델이 대형 모델을 앞지르는 결과가 나타났다. AI 모델은 효과적인 자기 스킬 생성에 실패하며, 지시를 따르는 능력과 지시를 만드는 능력 사이의 간극을 드러냈다.

SkillsBench: 인간의 노하우가 모델의 체급을 압도하다

•SkillsBench는 86개 작업에서 인간이 정제한 지식과 AI가 직접 생성한 지식의 성능 차이를 평가했다.
•인간이 큐레이션한 스킬을 사용할 경우 성공률이 16.2% 향상되어, 소형 모델이 대형 모델을 앞지르는 결과가 나타났다.
•AI 모델은 효과적인 자기 스킬 생성에 실패하며, 지시를 따르는 능력과 지시를 만드는 능력 사이의 간극을 드러냈다.

AI 에이전트의 패러다임이 단순한 연산 능력에서 절차적 지식을 구조화한 '스킬(Skills)' 중심으로 이동하고 있다. 리샹이(Xiangyi Li) 연구원 등이 참여한 연구진은 이러한 스킬의 실질적인 효과를 측정하기 위해 11개 분야, 86개 작업에 걸친 종합 평가 프레임워크인 SkillsBench를 도입했다. 연구 결과, 에이전트가 인간이 정제한 가이드를 따를 때는 성능이 비약적으로 발전하는 반면, 스스로 절차를 작성해야 할 때는 상당한 어려움을 겪는다는 극명한 대조가 확인되었다.

특히 이번 연구에서는 적절한 '스킬'의 제공이 모델의 크기를 보완하는 강력한 대체재가 될 수 있음이 밝혀졌다. 실제로 인간의 스킬을 장착한 소형 모델 Claude 4.5 Haiku가 스킬 없이 구동된 거대 모델 Claude 4.5 Opus의 성능을 압도하는 이변이 발생했다. 이는 헬스케어 혹은 소프트웨어 공학 같은 실무 분야에서 파라미터 수보다 정밀하게 설계된 지침이 훨씬 더 가치 있다는 사실을 시사한다. 다만 모델이 스스로 행동 전 지침을 만드는 '자기 생성' 스킬의 경우, 오히려 성능이 소폭 하락하는 양상을 보였다.

이러한 '지식의 간극'은 최신 모델조차 내부 지식을 신뢰할 수 있는 절차로 요약하는 메타 인지 능력이 부족하다는 점을 보여준다. 이에 따라 개발자들에게는 방대한 매뉴얼을 에이전트의 컨텍스트에 무작정 주입하기보다, 2~3개의 모듈로 구성된 집중화된 문서화 방식이 훨씬 효과적이라는 결론이 도출된다. 결국 에이전틱 AI의 미래는 신경망 구조만큼이나 인간의 전문성을 바탕으로 지식을 큐레이션하는 능력에 달려 있음을 SkillsBench는 상기시키고 있다.

이제 인공지능(AI)이 똑똑해지는 방법이 바뀌고 있습니다. 예전에는 단순히 계산을 잘하는 게 중요했지만, 이제는 일을 순서대로 처리하는 '비법(스킬)'이 더 중요해졌습니다. 연구원들이 '스킬즈벤치(SkillsBench)'라는 시험으로 확인해 보니, 인공지능이 사람이 잘 정리해 준 안내서를 따라 할 때 실력이 엄청나게 좋아졌습니다. 하지만 인공지능 스스로 어떻게 할지 계획을 짤 때는 오히려 실력이 떨어지는 모습을 보였습니다.

특히 이번 연구에서 놀라운 사실이 밝혀졌습니다. 좋은 비법만 있다면 인공지능의 몸집이 작아도 큰 문제가 없다는 것입니다. 실제로 사람이 만든 비법을 배운 '작은 인공지능(소형 모델)'이, 비법 없이 혼자 일하는 '대왕 인공지능(거대 모델)'보다 문제를 훨씬 잘 풀었습니다. 병원 업무나 컴퓨터 프로그램 만들기처럼 전문적인 일에서는, 무조건 덩치가 큰 것보다 정확한 '설명서(지침)'가 더 중요하다는 뜻입니다. 하지만 인공지능이 스스로 어떻게 할지 미리 적어보는 '스스로 비법 만들기(자기 생성 스킬)'는 오히려 점수를 깎아먹기도 했습니다.

이런 차이가 생기는 이유는 인공지능이 아직 자신이 아는 것을 요약해서 정리하는 '생각하는 능력(메타 인지)'이 부족하기 때문입니다. 그래서 인공지능을 가르칠 때는 엄청나게 긴 책을 통째로 주는 것보다, 핵심적인 2~3개의 '작은 공부 꾸러미(모듈)'로 나누어 주는 것이 훨씬 효과적입니다. 결국 미래의 똑똑한 비서 인공지능(에이전틱 AI)을 만드는 열쇠는, 기술뿐만 아니라 사람 전문가가 지식을 잘 골라주는 '전문가의 손길(큐레이션)'에 달려 있습니다.

SkillsBench: 인간의 노하우가 모델의 체급을 압도하다

공부 잘하는 AI의 비결: "사람의 꿀팁이 덩치 큰 AI를 이겨요!"

태그