ShotStreamが切り拓くリアルタイム動画生成の新境地
2026年3月30日 (月)
- •単一GPUで16 FPSのリアルタイム動画生成を実現するShotStreamアーキテクチャ
- •デュアルキャッシュ・メモリ機構により、複数ショットにわたる視覚的な一貫性を確保
- •2段階の「蒸留」プロセスが、学習時とリアルタイム推論時の性能差を解消
ShotStreamは、AIによる長尺動画生成のパラダイムを、従来の低速な一括生成からストリーミング方式へと根本的に転換させた。基盤構造を、過去の情報のみに基づいて次フレームを予測する自己回帰生成の設計に再構築することで、展開に合わせてユーザーが物語に直接介入することを可能にしている。このインタラクティブ性はデジタル・ストーリーテリングにおける大きな飛躍であり、生成を最初からやり直すことなく、テキストプロンプトを通じて進行中のナラティブを即座に調整できるのが大きな特徴だ。
異なるシーンやショット間で一貫したビジュアルを維持することは、従来の動画モデルにとって極めて困難な課題であった。ShotStreamは、人間の短期記憶と長期記憶のように機能する「デュアルキャッシュ・メモリ・システム」を導入することでこの問題を解決している。具体的には、グローバルキャッシュが全体的な視覚スタイルやキャラクターの詳細を保持し、ローカルキャッシュが現在のシーン内の滑らかな動きに集中する仕組みだ。これら2種類のメモリが混同されないよう、過去の文脈と新規生成を明確に区別する専用のインジケーターも実装されている。
モデルを実用的な速度まで高めるため、研究チームは蒸留と呼ばれる手法を採用した。これは、巨大で低速なモデルの高品質な出力を、より軽量で高速なモデルに模倣させる技術である。AIをまず完璧なデータで学習させ、次に自ら生成した履歴データで再学習させることで、長いシーケンスで蓄積しがちな微細なエラーを大幅に削減することに成功した。その結果、1秒未満のレスポンスで高品質なマルチショット・ナラティブを生成できるシステムが構築され、真にインタラクティブなAI映画への道が切り拓かれた。