R 통계 분석을 정복한 신규 AI 에이전트 DARE
2026년 3월 6일 (금)
- •DARE 모델은 데이터 분포 특성을 함수 표현에 통합하여 R 패키지 검색 성능을 획기적으로 개선했다.
- •CRAN의 고품질 통계 패키지 8,191개를 집대성한 새로운 지식 베이스 RPKB가 구축됐다.
- •RCodingAgent는 기존 오픈소스 모델 대비 신뢰할 수 있는 통계 분석 및 코드 생성에서 17% 앞선 성능을 보였다.
데이터 과학 프로세스는 엄격한 통계 방법론을 제공하는 R 프로그래밍 언어에 크게 의존하지만, AI 에이전트는 종종 그 방대한 생태계를 탐색하는 데 어려움을 겪는다. 기존의 검색 방식은 함수의 텍스트 기반 설명에만 집중하기 때문에 데이터 자체가 가진 중요한 맥락을 놓치는 경우가 많다. 그 결과 AI가 특정 데이터셋에 부적절한 통계 도구를 선택하는 문제가 발생하곤 했다.
홍콩폴리텍대학교(The Hong Kong Polytechnic University) 연구진은 이러한 간극을 메우기 위해 경량 모델인 DARE(Distribution-Aware Retrieval Embedding)를 선보였다. DARE는 함수의 메타데이터와 실제 데이터의 분포 특성을 융합함으로써 AI가 주어진 데이터에 가장 적합한 도구를 선택하도록 지원한다. 이러한 데이터 분포 인식 접근 방식 덕분에 시스템은 함수의 기능을 넘어 해당 도구가 어떤 데이터 특성에 최적화되어 있는지까지 정확히 이해한다.
연구진은 또한 종합 R 아카이브 네트워크인 CRAN에서 수집한 8,000개 이상의 패키지를 담은 종합 지식 베이스 RPKB를 함께 공개했다. 이를 RCodingAgent라는 새로운 프레임워크에 통합한 결과, 올바른 도구를 찾는 정확도가 93.47%에 달해 대형 범용 모델들을 크게 앞질렀다. 이러한 기술적 진보는 향후 AI가 고도로 전문화된 학술 및 전문 통계 업무를 훨씬 더 신뢰성 있게 처리할 수 있음을 시사한다.