Vision-DeepResearch, 멀티모달 AI의 심층 탐사 시대 열다
2026년 2월 3일 (화)
- •수십 단계의 추론과 수백 번의 검색을 수행하는 새로운 멀티모달 연구 패러다임을 제시했다.
- •사실 중심의 시각적 질의응답(VQA) 벤치마크에서 GPT-5 및 Claude-4-Sonnet 등 주요 상용 모델을 압도했다.
- •강화 학습을 통해 고도의 연구 능력을 모델 내부에 직접 체득시켜 세계 최고 수준의 성과를 달성했다.
Vision-DeepResearch는 AI의 복잡한 정보 수집 방식에 중대한 변화를 불러일으켰다. 기존 멀티모달 대규모 언어 모델 (MLLM)은 시각적 노이즈에 취약하거나 단순한 검색에 의존하는 경향이 있었으나, 이 모델은 시각과 텍스트 데이터를 아우르는 심층적인 다회차 조사를 수행한다. 특히 이미지를 단순히 분석하는 수준을 넘어 세부 사항을 능동적으로 확대하고 수십 단계의 추론을 거쳐 최적의 증거를 찾아내는 멀티 엔티티 검색 역량을 보여준다.
연구진은 이러한 정교한 연구 습관을 모델 자체에 성공적으로 내재화했다. 외부 스크립트에 의존하는 대신 고품질 데이터를 활용한 '콜드 스타트 감독'과 강화 학습을 결합하여 모델이 스스로 연구 과정을 학습하도록 유도한 것이다. 이를 통해 8B 및 30B-A3B 파라미터 규모의 모델들은 이제 수백 번의 검색 엔진 상호작용을 자율적으로 관리하며 복잡한 정보를 처리할 수 있게 되었다.
실제 6개의 주요 사실 중심 벤치마크 평가에서 Vision-DeepResearch는 GPT-5와 Gemini-2.5-Pro 같은 폐쇄형 거대 모델들을 능가하는 성능을 입증했다. 이는 긴 호흡이 필요한 장기 과제에 최적화된 특화 훈련이 뒷받침된다면, 상대적으로 작은 규모의 오픈소스 모델도 세계 최고 수준의 범용 파운데이션 모델을 상대로 압도적인 성과를 낼 수 있음을 증명한 사례로 평가받는다.