HopChain 프레임워크, 멀티홉 시각 추론 성능 대폭 강화
- •HopChain 프레임워크는 멀티홉 데이터를 합성해 시각적 추론 과정에서 발생하는 오류 누적을 방지한다.
- •Qwen3.5 모델에 적용 시 24개 벤치마크 중 20개에서 성능 향상을 달성하며 탁월한 범용성을 입증했다.
- •초장거리 CoT 추론 환경에서 멀티홉 데이터를 활용할 경우 정확도가 최대 50포인트까지 상승했다.
시각 언어 모델(VLM)은 여러 단계의 시각적 근거가 필요한 작업에서 종종 한계를 드러낸다. 특히 지각이나 논리 단계의 사소한 실수가 전체 결과의 실패로 이어지는 '오류 누적(compounding errors)' 현상이 주요 원인으로 꼽힌다. 이를 해결하기 위해 Qwen 팀과 칭화대학교 LeapLab 연구진은 복잡한 멀티홉 추론 데이터를 합성하는 프레임워크인 HopChain을 선보였다. 이 시스템은 모델이 각 단계마다 새로운 시각적 근거를 찾아야 하는 논리적 '홉(hop)'을 통과하도록 강제함으로써 시각적 추론의 기초 메커니즘을 체계적으로 강화한다.
HopChain의 핵심은 특정 벤치마크 데이터에 의존하지 않고 분포 외 대리 작업에 집중한다는 점이다. 모든 질의는 검증 가능한 수치적 정답으로 결론지어지며, 이는 시각적 보상을 통한 강화학습인 RLVR에 최적화된 학습 소스가 된다. 실제로 Qwen3.5-35B 및 397B 모델 학습에 HopChain을 통합한 결과, STEM 교육, 문서 이해, 비디오 분석을 아우르는 24개 벤치마크 중 20개 분야에서 놀라운 성능 향상을 기록했다.
연구 결과는 완전한 추론 체인을 구축하는 작업의 중요성을 여실히 보여준다. 멀티홉 질의를 단순한 변형으로 대체했을 때는 성능이 크게 하락한 반면, 초장거리 추론 영역에서의 정확도 이득은 50포인트를 상회했다. 결과적으로 진정한 멀티모달 AI로 나아가는 길은 단순히 텍스트 중심의 추론 패턴을 답습하는 것이 아니라, 시각 기반 문제 해결의 구조적 논리를 직접 학습하는 데 있음을 시사한다.