Gen-Searcher, 검색 증강 추론으로 이미지 생성 한계 돌파
2026년 3월 31일 (화)
- •Gen-Searcher는 다단계 검색을 통해 외부 지식을 수집하고 고정밀 이미지를 생성한다.
- •지도 미세 조정과 텍스트·이미지 이중 보상을 활용한 강화학습을 결합해 모델을 훈련했다.
- •새로운 KnowGen 벤치마크에서 Qwen-Image 모델보다 16점 높은 성능을 기록했다.
기존의 이미지 생성 모델들은 학습 과정에서 습득한 내부 지식에만 의존하기 때문에, 지식 집약적인 작업에서는 한계를 드러내는 경우가 많다. 특히 사용자가 최신 사건이나 생소한 과학적 개념을 요청하면 모델은 부정확한 정보를 바탕으로 내용을 추측하여 이미지를 생성하곤 한다. Gen-Searcher는 이러한 결점을 보완하기 위해 웹을 탐색하고 참조 이미지를 직접 검색하여 창의적 프로세스에 반영하는 에이전트 방식을 도입했다.
이 시스템은 단일 검색에 그치지 않고 정보의 연결 고리를 추적해 나가는 다단계 추론 기술을 활용한다. 이를 통해 이미지 생성에 필요한 정확한 근거를 확보하는 근거 기반 생성을 구현했다. 연구진은 이러한 복잡한 동작을 학습시키기 위해 텍스트의 정확성과 시각적 참조와의 일치도를 동시에 평가하는 이중 보상 체계 기반의 강화학습을 적용했다. 이러한 보상 시스템은 AI가 실제 세계의 데이터에 더욱 충실한 결과물을 내놓을 수 있도록 보장한다.
실제로 Gen-Searcher는 KnowGen 벤치마크 평가에서 이전 모델들보다 16점이나 높은 점수를 기록하며 탁월한 성능 향상을 입증했다. 연구팀은 8B 규모의 모델과 훈련 데이터셋을 오픈소스로 공개했는데, 이는 향후 검색 에이전트 개발을 위한 중요한 기초 프레임워크가 될 전망이다. 이러한 기술적 진보는 정적인 학습 데이터와 시시각각 변화하는 현실 세계의 정보 사이의 간극을 메워 AI가 실시간으로 세상을 이해하고 시각화할 수 있는 길을 열어준다.