사용자 휴식 시간에도 스스로 진화하는 LLM 에이전트, 'MetaClaw' 등장
- •MetaClaw 프레임워크는 서비스 중단 없이 AI 에이전트의 행동 기술과 정책을 진화시킨다.
- •시스템은 사용자 비활성 시간을 활용해 클라우드 기반 저차원 적응(LoRA)으로 모델을 미세조정한다.
- •MetaClaw-Bench에서 정확도가 32% 향상되어 선두적인 상용 모델과의 성능 격차를 크게 줄였다.
기존의 AI 에이전트는 한 번 배포되면 사용자 요구의 변화에 기민하게 대응하지 못하고 정체되는 '정체 격차(stagnation gap)' 문제를 겪어왔다. 이를 해결하기 위해 개발된 MetaClaw는 실제 운영 환경에서 에이전트가 스스로 성장할 수 있는 이중 트랙 학습 시스템을 도입했다. 이 프레임워크를 통해 소프트웨어 비서는 개발자의 수동 업데이트를 기다리는 대신, 실제 사용자 상호작용을 바탕으로 자신의 역량을 실시간으로 연마한다.
첫 번째 트랙은 기술 중심의 빠른 적응 과정이다. 에이전트가 작업 수행에 실패하면 내부의 '진화기(evolver)'가 오류를 분석하여 재사용 가능한 새로운 기술을 합성해낸다. 특히 이 과정은 기본 모델의 가중치를 수정하지 않고도 즉각적인 성능 향상을 제공하며, 그 결과 에이전트는 20개 이상의 메시징 채널을 더욱 정밀하게 관리할 수 있게 되었다.
두 번째 트랙인 '기회주의적 정책 최적화'는 더 깊은 구조적 변화를 담당한다. 내부 스케줄러가 시스템 비활성 시간과 캘린더 데이터를 모니터링하다가, 사용자가 자리를 비운 사이에 클라우드 기반의 저차원 적응(LoRA) 및 프로세스 보상 모델(Process Reward Model) 기반 강화학습을 실행한다. 마치 사람이 잠자는 동안 하루의 학습 내용을 정리하듯, 에이전트 역시 사용자가 쉬는 시간에 핵심 로직을 업데이트하는 셈이다.
실제 테스트 결과, 이러한 자율 진화 시스템은 Kimi-K2.5 모델의 정확도를 기존 21.4%에서 40% 이상으로 끌어올리며 GPT-5.2의 성능에 근접하는 성과를 거뒀다. 또한 버전 관리 메커니즘을 통해 지원 데이터와 쿼리 데이터를 분리함으로써 '데이터 오염'을 방지했다. 이에 따라 에이전트는 단순히 과거의 실패를 암기하는 수준을 넘어 실제 경험으로부터 유의미한 교훈을 학습할 수 있게 되었다.