학계 연구팀, 오픈소스 검색 에이전트 OpenSeeker 공개
- •OpenSeeker는 단 1.17만 개의 합성 훈련 샘플만으로 최고 수준의 검색 성능을 달성했다.
- •학계 연구진은 고품질 훈련 데이터를 전면 공개하며 빅테크 기업의 데이터 독점 구도에 도전장을 내밀었다.
- •이 모델은 단순한 지도 미세 조정만으로 주요 벤치마크에서 알리바바의 Tongyi DeepResearch를 능가하는 성과를 거두었다.
OpenSeeker는 고성능 검색 에이전트 구축에 막대한 기업 자본이나 수백만 개의 데이터가 필수적이지 않음을 증명하며 AI 지형의 유의미한 변화를 예고했다. 학계 연구팀이 개발한 해당 프로젝트는 그간 테크 거물들이 폐쇄적으로 유지해온 ‘데이터 해자(Data Moat)’ 문제를 정면으로 겨냥한다. 연구진은 모델뿐만 아니라 전체 학습 레시피를 모두 공개함으로써 전 세계 커뮤니티가 기술적 격차를 줄일 수 있는 토대를 마련했다.
이 프로젝트의 성공 비결은 두 가지 핵심 기술적 돌파구에 있다. 먼저 웹 그래프(Web graph)를 역공학하여 복잡한 과제를 생성하고, 노이즈가 섞인 인터넷 데이터로부터 효과적으로 학습할 수 있는 노이즈 제거 메커니즘을 도입했다. 또한 엔터티 난독화 기술을 활용해 에이전트가 여러 정보를 단계별로 연결해야 하는 고난도 쿼리를 생성함으로써 멀티홉 추론(Multi-hop reasoning) 능력을 극대화했다. 이러한 방식을 통해 산업체 연구소 특유의 대규모 데이터 없이도 복잡한 정보 검색 능력을 마스터할 수 있었다.
놀랍게도 OpenSeeker는 업계 리더들이 사용하는 값비싼 강화학습이나 지속적 사전 학습 파이프라인 대신, 단 한 번의 지도 미세 조정(Supervised Fine-Tuning)만으로 이 같은 성과를 거두었다. 실제로 중국어 벤치마크에서 알리바바의 Tongyi DeepResearch를 뛰어넘는 성능을 보여주면서도 모든 과정을 투명하게 공개했다. 결과적으로 이 프로젝트는 광범위한 연구 커뮤니티에 기업 규모의 인프라 없이도 혁신을 이어갈 수 있는 고품질의 기반을 제공했다.