알리바바의 지도 활용 AI 기술 지리적 위치 파악 성능 대폭 향상
- •알리바바 연구진이 시각-언어 모델의 정밀한 지리적 위치 파악을 돕는 'Thinking with Map' 프레임워크를 공개했다.
- •실제 환경의 고화질 이미지를 포함한 새로운 벤치마크 MAPBench를 통해 지리적 추론 능력의 학습과 평가가 가능해졌다.
- •지도 상호작용과 강화 학습을 통해 500m 이내 정확도를 22.1%까지 끌어올리며 기존 상용 모델 대비 압도적인 성능을 증명했다.
알리바바의 AI 연구원인 지위샹(Yuxiang Ji)이 이끄는 연구팀은 시각-언어 모델(VLM)과 '지도 내 에이전트' 추론 루프를 결합한 혁신적인 이미지 지리 위치 파악 방식인 'Thinking with Map'을 발표했다. 기존의 지리 위치 파악 모델들이 주로 내부 데이터 가중치나 텍스트 기반 검색에 의존했던 것과 달리, 이 프레임워크는 인간이 지도를 직접 탐색하고 추론하는 행동 방식을 정교하게 모방한다. 특히 시각 정보와 자연어 텍스트를 동시에 이해하고 처리하는 시각-언어 모델의 특성을 극대화하여, 복잡한 시각-공간 작업 수행 시 발생하는 할루시네이션(환각 현상)을 획기적으로 줄이고 위치 파악의 정확도를 높였다.
해당 시스템은 성능 극대화를 위해 정교한 두 단계 최적화 과정을 거친다. 우선 에이전트 기반의 강화 학습을 도입하여 도구 사용의 효율성을 개선했으며, 테스트 시점에서는 병렬 스케일링 기법을 적용해 수많은 지리적 후보지를 동시에 탐색하고 분석한다. 여기서 강화 학습이란 인공지능이 특정한 동작에 대해 보상과 벌칙을 받으며 스스로 최적의 행동을 익히는 머신러닝 학습법을 의미한다. 또한 연구팀은 실제 환경에서 수집한 고품질의 이미지 데이터 세트인 'MAPBench'를 함께 공개함으로써, 향후 지리적 추론 모델의 성능을 정밀하게 평가하고 학습시킬 수 있는 표준을 마련했다는 평가를 받는다.
실제로 진행된 비교 테스트 결과에 따르면, 지도 증강 에이전트 기술이 적용된 이 시스템은 500m 반경 내에서 22.1%의 정확도를 달성했다. 이는 구글 검색 및 지도 연동 모드를 사용한 제미나이-3-프로(Gemini-3-Pro)의 정확도인 8.0%와 비교했을 때 약 세 배에 달하는 비약적인 성능 향상이다. 이러한 결과는 명시적인 지도 데이터와의 상호작용과 '생각의 사슬(Chain-of-Thought)' 추론 방식이 인공지능의 지리적 판단 능력을 얼마나 정밀하게 만드는지 입증한다. 이에 따라 향후 자율주행이나 스마트 물류와 같이 고도의 위치 정보가 필수적인 산업 분야에서 해당 기술의 활용 가능성이 매우 클 것으로 기대된다.