텐센트, 대화로 영화 만드는 '에이전틱 AI' 공개
2026년 1월 27일 (화)
- •텐센트 훈원(Tencent Hunyuan)이 대화를 정교한 시네마틱 영상으로 변환하는 엔드 투 엔드 에이전틱 AI 프레임워크를 발표했다.
- •시나리오 작가 역할을 하는 ScripterAgent와 영상 제작을 총괄하는 DirectorAgent를 통해 장면 간 일관성을 확보했다.
- •장기적인 서사 일관성을 측정하기 위한 ScriptBench 데이터셋과 시각-시나리오 정렬도(VSA) 지표를 새롭게 제시했다.
현재 AI 영상 생성 기술은 시각적으로 화려한 단편 클립 제작에는 능숙하지만, 긴 호흡의 서사를 유지하는 데는 여전히 한계를 보인다. 텐센트 훈원의 연구진은 창의적인 아이디어가 실제 영상으로 구현되는 과정에서의 '의미론적 공백'을 메우기 위해 새로운 접근법을 시도. 단순한 프롬프트 입력을 넘어, 영화 제작의 전 과정을 다단계로 조율하는 에이전틱 AI 프레임워크를 선보인 것이다. 시스템의 핵심은 ScripterAgent와 DirectorAgent라는 두 개의 축이다. ScripterAgent는 시나리오 작가로서 모호한 대화를 상세하고 실행 가능한 대본으로 바꾼다. 이어지는 DirectorAgent는 이 대본을 청사진 삼아 여러 최신 영상 모델을 지휘한다. 특히 장면 간 연속 생성 전략을 활용해 인물, 배경, 조명이 여러 장면에서도 어긋나지 않도록 유지한다. 이는 기존 단일 모델들이 어려워했던 '장기 서사 일관성'을 구현한 핵심 기술이라 할 수 있다. 연구팀은 성과를 뒷받침하기 위해 대규모 벤치마크인 ScriptBench를 개발했다. AI가 복잡한 시나리오에 맞춰 시각적 결과물을 얼마나 잘 정렬하는지 평가하기 위함이다. 분석 결과, 일부 모델은 화려한 영상미를 보여주지만 시나리오의 지침에서 점차 벗어나는 경향을 보였다. 이번 연구는 서사적 충실도를 수치화하는 시각-시나리오 정렬도(VSA) 지표를 도입함으로써, 완전 자동화된 영화 제작 시대로 한 걸음 더 다가섰다.