상하이 교통대, 코드를 이미지로 처리하는 'CodeOCR' 발표
- •상하이 교통대학교 연구진이 소스코드를 이미지로 변환해 처리 효율을 극대화하는 CodeOCR을 제안했다.
- •시각 언어 모델(VLM)을 활용해 복잡한 코드 이해 작업에서 성능을 유지하면서도 토큰 소모량을 8배 절감했다.
- •구문 강조와 같은 시각적 요소가 높은 압축률 환경에서도 모델의 정확도를 크게 향상시키는 것으로 나타났다.
기존 대규모 언어 모델(LLM)은 코드를 긴 텍스트 문자열로 처리하기 때문에, 소프트웨어 프로젝트의 규모가 커질수록 연산에 필요한 메모리인 토큰 소모량이 기하급수적으로 늘어난다. 이에 상하이 교통대학교 연구진은 코드를 텍스트가 아닌 시각적 이미지로 다루는 'CodeOCR'이라는 새로운 패러다임을 제시했다. 이 시스템은 코드를 이미지로 렌더링함으로써 정보를 최대 8배까지 압축하며, 모델이 모든 문자를 일일이 처리하는 부담 없이 소프트웨어의 전체적인 구조를 직관적으로 파악할 수 있게 한다.
이러한 멀티모달 AI 접근 방식은 이미지와 텍스트를 동시에 해석하도록 설계된 시각 언어 모델(VLM)의 고유한 강점을 활용한다. 연구 결과에 따르면, 개발자들이 프로그램의 각 구성 요소를 구분하기 위해 사용하는 '구문 강조(Syntax Highlighting)' 기능이 포함될 때 모델의 성능이 더욱 향상되었다. 이러한 시각적 단서들은 원본 텍스트만으로는 부족할 수 있는 구조적 맥락을 제공하며, 이미지 해상도가 크게 낮아진 상태에서도 AI가 복잡한 논리 구조를 원활하게 탐색하도록 돕는다.
무엇보다 흥미로운 점은 두 코드 조각의 유사성을 식별하는 '클론 탐지'와 같은 특정 작업에서 이미지 기반 압축 방식이 놀라운 효율성을 보여주었다는 사실이다. 일부 실험에서는 이미지 기반 방식이 기존의 텍스트 입력 방식보다 오히려 높은 성능을 기록하기도 했다. 이러한 발견은 향후 고속 AI 코딩 도구가 방대한 코드 저장소를 한 줄씩 읽는 대신, 마치 스냅샷을 훑어보듯 처리함으로써 연산 비용을 획기적으로 낮추고 속도를 높일 수 있음을 시사한다.