AI, 비디오 미래 예측 정확도 대폭 개선
- •Video-CoE는 정교한 사건 체인을 도입하여 영상의 미래 결과를 정확하게 예측한다.
- •논리적 추론과 시간적 모델링을 강화해 기존의 주요 상용 모델보다 뛰어난 성능을 보여준다.
- •2단계 학습 프로토콜을 통해 AI의 예측이 실제 시각적 증거에 기반하도록 보장한다.
대다수의 최신 AI 모델은 영상을 실시간으로 묘사할 수 있지만, 다음에 어떤 일이 일어날지 예측하는 데에는 한계를 보인다. '비디오 사건 예측(VEP)'이라 불리는 이 과제는 단순한 객체 인식을 넘어 시간의 논리적 흐름과 인과관계를 이해해야 하는 고난도 작업이다. 현재의 시스템들은 현재의 행동을 미래의 결과와 연결하는 정교한 추론 능력이 부족해 실패하는 경우가 잦다.
연구진은 이러한 간극을 메우기 위해 '사건 체인(Chain of Events)' 패러다임을 활용한 새로운 프레임워크인 Video-CoE를 선보였다. 이 모델은 곧바로 미래를 예측하는 대신, 관찰된 영상과 개연성 있는 미래를 연결하는 중간 단계들을 구조적으로 구성한다. 이러한 방식은 인간이 결과를 추측하기 전 여러 단계를 고려하는 것처럼, AI가 미세한 시각적 단서에 집중하고 추론 과정 전반에서 논리적 일관성을 유지하도록 유도한다.
특히 Video-CoE는 정교한 2단계 학습 프로토콜을 통해 이 같은 성과를 거두었다. 첫 번째 단계에서는 지도 미세 조정을 통해 모델의 내부 추론 능력을 고도화하고, 두 번째 단계에서는 고급 최적화 기술을 사용하여 예측 결과가 제공된 시각 데이터에 엄격히 기반하도록 만든다. 그 결과 AI가 미래에 대해 터무니없거나 비논리적인 추측을 내놓는 현상을 효과적으로 방지할 수 있었다.
실험 결과 Video-CoE는 최상위권 오픈소스 모델은 물론 주요 상용 AI 시스템을 압도하며 새로운 최고 성능을 달성했다. 인간이 미래를 예상하는 방식을 효과적으로 시뮬레이션함으로써, 이번 연구는 자율주행부터 보안 모니터링까지 높은 신뢰도가 요구되는 다양한 분야에서 AI의 실용성을 한 단계 끌어올린 중요한 이정표가 되었다.