EVA 프레임워크, 강화학습으로 더 똑똑한 비디오 이해 실현
- •EVA 프레임워크는 '지각 전 계획' 추론 방식을 통해 비디오 이해 성능을 12% 향상시켰다.
- •지도 학습 기반 미세 조정과 카네만-트버스키 및 일반화된 보상 정책 최적화를 결합한 3단계 학습 파이프라인을 구축했다.
- •효율적인 '요약-계획-행동-성찰' 루프를 통해 에이전트가 스스로 중요한 비디오 프레임을 선택하여 처리한다.
비디오 이해는 긴 영상의 모든 프레임을 처리하는 데 막대한 연산 비용이 들고 중복되는 정보가 많아 멀티모달 모델의 고질적인 병목 구간으로 꼽혀왔다. 기존 시스템의 대다수는 데이터를 전략적으로 탐색하기보다 정보를 수동적으로 훑는 관찰자 수준에 머물러 있었다. 이에 신규 공개된 EVA(Efficient Video Agent) 프레임워크는 '지각 전 계획(planning-before-perception)' 사고방식을 도입해 이러한 한계를 극복하고자 했다.
단순히 전체 시퀀스를 맹목적으로 시청하는 대신, 에이전트는 요약과 계획, 실행 및 성찰로 이어지는 반복 주기를 활용하여 비디오 내에서 주의를 기울여야 할 결정적인 순간을 스스로 판단한다. 특히 이러한 방식은 사람이 특정 장면을 찾기 위해 긴 영화를 훑어보는 방식과 유사하며, 모델이 한 번에 처리해야 하는 시각적 데이터의 총량인 '시각적 예산'을 획기적으로 줄여주는 효과가 있다.
연구진은 이러한 복잡한 행동을 구현하기 위해 3단계 학습 파이프라인을 개발했다. 먼저 기본 모방 학습을 위한 지도 학습 기반 미세 조정을 거친 뒤, 카네만-트버스키 최적화(KTO) 및 일반화된 보상 정책 최적화(GRPO)와 같은 고급 강화학습 기술을 적용했다. 이 과정을 거치며 모델은 단순한 패턴 매칭 수준을 넘어 실제 전략적 추론이 가능한 단계로 진화했다.
실제로 EVA는 6가지 주요 벤치마크 테스트에서 기존 표준 모델 대비 성능을 최대 12% 향상시켰다. 무엇보다 무엇을, 언제, 어떻게 시청할지 스스로 결정하는 시스템을 통해 컴퓨터 비전 분야에서도 모든 데이터를 무분별하게 소비하는 것보다 선택적으로 집중하는 것이 훨씬 효과적임을 입증했다.