바이트댄스, 실시간 장편 영상 생성 모델 'Helios' 공개
2026년 3월 5일 (목)
- •Helios 14B 모델은 단일 GPU 환경에서 19.5 FPS의 실시간 영상 생성을 구현했다.
- •특수 가속 기법 없이도 품질 저하 없이 1분 길이의 고화질 영상을 안정적으로 생성한다.
- •단일 아키텍처를 통해 텍스트, 이미지, 비디오 기반의 다양한 변환 작업을 동시에 지원한다.
바이트댄스(ByteDance) 연구진이 진정한 실시간 성능을 구현하며 영상 합성 분야의 획기적인 도약을 이끌어낼 140억 매개변수 규모의 모델 Helios를 발표했다. 기존의 영상 생성 모델들은 시간이 흐름에 따라 영상의 품질이 저하되거나 특정 장면이 반복되는 'Drifting' 현상으로 인해 장편 제작에 어려움을 겪는 경우가 많았다. 반면 Helios는 복잡한 오류 수정 기법에 의존하지 않고도 1분 이상의 영상 클립에서 뛰어난 일관성을 유지하며 고품질의 결과물을 만들어낸다.
이 모델의 효율성은 특히 주목할 만하다. 양자화나 특수한 메모리 캐싱과 같은 표준적인 가속화 단계를 거치지 않고도 단일 고성능 칩에서 초당 19.5프레임(FPS)의 속도를 기록했기 때문이다. 연구진은 과거 데이터를 대폭 압축하고 각 프레임 생성에 필요한 연산 단계를 줄이는 방식을 통해, 훨씬 더 많은 컴퓨팅 자원을 소모하는 대형 시스템과 대등한 품질을 구현하는 데 성공했다.
Autoregressive diffusion 방식을 채택한 Helios는 텍스트를 영상으로 변환하거나 정적인 이미지에 생동감을 불어넣는 등 다양한 생성 작업을 유연하게 수행한다. 개발진은 모델 훈련 단계에서 발생 가능한 잠재적 오류를 시뮬레이션함으로써 시스템이 스스로 결과물을 교정할 수 있도록 설계했다. 이는 향후 더욱 접근성 높고 매끄러운 AI 미디어 생성 환경을 구축하는 발판이 될 전망이며, 바이트댄스는 해당 코드와 모델을 커뮤니티에 오픈소스로 공개할 예정이다.