바이두, 고성능 문서 파싱 모델 'Qianfan-OCR' 출시
- •바이두가 문서 파싱과 레이아웃 분석을 통합한 40억 매개변수 규모의 시각-언어 모델 'Qianfan-OCR'을 공개했다.
- •텍스트 출력 전 구조적 좌표를 먼저 생성하는 'Layout-as-Thought' 메커니즘을 통해 복잡한 문서 분석 정확도를 높였다.
- •OmniDocBench 등 주요 벤치마크에서 Gemini-3.1-Pro와 같은 대형 모델들을 제치고 1위를 차지하며 성능을 입증했다.
바이두가 문서 지능화의 복잡한 과정을 획기적으로 간소화하기 위해 설계된 40억 매개변수 규모의 특화 모델, Qianfan-OCR을 선보였다. 기존의 PDF나 이미지 정보 추출 방식은 레이아웃 식별, 텍스트 인식, 데이터 구조화 등 여러 단계를 거쳐야 했으나, Qianfan-OCR은 이를 하나의 통합된 아키텍처 내에서 해결한다. 이러한 엔드투엔드(end-to-end) 접근 방식 덕분에 이미지의 마크다운(Markdown) 변환이나 복잡한 표 추출과 같은 다양한 작업을 단일 워크플로우로 처리할 수 있게 되었다.
이 모델의 핵심 혁신은 이른바 'Layout-as-Thought' 메커니즘에 있다. 이 프로세스는 특수한 '생각 토큰(think tokens)'을 사용하여 모델이 최종 텍스트를 생성하기 전, 경계 상자(bounding boxes)나 읽기 순서와 같은 구조적 레이아웃 표현을 먼저 생성하는 내부 추론 단계를 유도한다. 특히 문서 구조를 먼저 시각화하여 파악함으로써 일반적인 AI가 흔히 혼동하는 복잡한 레이아웃에서의 오류를 획기적으로 줄였다. 이러한 모듈형 사고 단계는 다단계 파이프라인에서 흔히 발생하는 지연 시간 문제 없이 높은 정확도를 보장한다는 장점이 있다.
성능 평가 결과에서도 Qianfan-OCR은 OmniDocBench v1.5와 OlmOCR Bench 등 주요 벤치마크에서 1위를 기록하며 두각을 나타냈다. 놀랍게도 40억 개의 매개변수만으로도 Gemini-3.1-Pro나 Qwen3-VL-235B와 같은 훨씬 거대한 경쟁 모델들을 주요 정보 추출 작업에서 앞질렀다. 현재 바이두 AI 클라우드를 통해 제공되는 이 모델은 언어 능력과 더불어 구조적 인지 능력을 최우선으로 고려하는 효율적인 특화 멀티모달 아키텍처로의 중요한 패러다임 전환을 시사한다.