이 기사의 핵심 내용은?

Meituan(메이투안)의 EvoCUA, OSWorld 성공률 56.7%를 달성하며 오픈소스 AI 에이전트 성능 신기록 수립 자율적인 합성 데이터 생성과 비동기 샌드박싱 배포를 통해 기존의 데이터 확장 병목 현상 해결 진화적 학습 전략을 통해 높은 매개변수 효율을 유지하면서도 주요 폐쇄형 모델을 능가하는 성능 발휘

메이투안의 EvoCUA, 오픈소스 AI 에이전트 한계 돌파

•Meituan(메이투안)의 EvoCUA, OSWorld 성공률 56.7%를 달성하며 오픈소스 AI 에이전트 성능 신기록 수립
•자율적인 합성 데이터 생성과 비동기 샌드박싱 배포를 통해 기존의 데이터 확장 병목 현상 해결
•진화적 학습 전략을 통해 높은 매개변수 효율을 유지하면서도 주요 폐쇄형 모델을 능가하는 성능 발휘

인간처럼 컴퓨터 인터페이스를 자유자재로 다루는 에이전트 개발은 늘 '데이터 부족'이라는 벽에 부딪혀 왔다. 복잡한 다단계 디지털 과업을 해결하는 고품질 사례가 현저히 부족했기 때문이다. Meituan(메이투안)의 LongCat Team은 이러한 한계를 돌파하기 위해 EvoCUA를 공개했다. 수동적인 학습에서 벗어나 스스로 성장을 반복하는 선순환 구조를 구축한 것이 핵심이다.

EvoCUA의 중심에는 검증 가능한 합성 엔진이 자리 잡고 있다. 시스템이 스스로 다양한 디지털 작업과 이를 검증할 도구를 자율적으로 생성한다. 덕분에 제한된 인간 라벨링 데이터에 의존하지 않고 방대한 학습 환경을 직접 조성할 수 있었다. 연구진은 수만 개의 샌드박싱 시뮬레이션을 동시에 실행하는 대규모 인프라를 구축했다. 에이전트는 이 가상 공간에서 운영체제는 물론 Excel이나 VSCode 같은 애플리케이션을 넘나들며 실전 감각을 익힌다.

가장 차별화된 지점은 '반복적 진화 학습' 전략이다. 단순히 성공 사례를 모방하는 데 그치지 않고, 오류 분석과 자가 수정을 통해 자신의 실패를 면밀히 분석한다. 현재 역량의 한계점을 명확히 파악하고, 실패한 시도조차 풍부한 학습 재료로 전환하는 방식이다. 그 결과 EvoCUA 32B 모델은 OSWorld 벤치마크에서 56.7%의 성공률을 기록했다. 이는 주요 폐쇄형 모델을 앞지르는 성과로, 오픈소스 멀티모달 AI의 새로운 지평을 열었다는 평가다.

인간처럼 컴퓨터 인터페이스를 자유자재로 다루는 에이전트 개발은 늘 '데이터 부족'이라는 벽에 부딪혀 왔다. 복잡한 다단계 디지털 과업을 해결하는 고품질 사례가 현저히 부족했기 때문이다. Meituan(메이투안)의 LongCat Team은 이러한 한계를 돌파하기 위해 EvoCUA를 공개했다. 수동적인 학습에서 벗어나 스스로 성장을 반복하는 선순환 구조를 구축한 것이 핵심이다.

EvoCUA의 중심에는 검증 가능한 합성 엔진이 자리 잡고 있다. 시스템이 스스로 다양한 디지털 작업과 이를 검증할 도구를 자율적으로 생성한다. 덕분에 제한된 인간 라벨링 데이터에 의존하지 않고 방대한 학습 환경을 직접 조성할 수 있었다. 연구진은 수만 개의 샌드박싱 시뮬레이션을 동시에 실행하는 대규모 인프라를 구축했다. 에이전트는 이 가상 공간에서 운영체제는 물론 Excel이나 VSCode 같은 애플리케이션을 넘나들며 실전 감각을 익힌다.

가장 차별화된 지점은 '반복적 진화 학습' 전략이다. 단순히 성공 사례를 모방하는 데 그치지 않고, 오류 분석과 자가 수정을 통해 자신의 실패를 면밀히 분석한다. 현재 역량의 한계점을 명확히 파악하고, 실패한 시도조차 풍부한 학습 재료로 전환하는 방식이다. 그 결과 EvoCUA 32B 모델은 OSWorld 벤치마크에서 56.7%의 성공률을 기록했다. 이는 주요 폐쇄형 모델을 앞지르는 성과로, 오픈소스 멀티모달 AI의 새로운 지평을 열었다는 평가다.

메이투안의 EvoCUA, 오픈소스 AI 에이전트 한계 돌파

태그