PackForcing、短尺学習で2分の動画生成を実現
2026年3月30日 (月)
- •単一のH200 GPUとわずか4GBのKVキャッシュにより、2分間の動画生成を可能にした。
- •階層的なコンテキスト圧縮により、5秒のクリップ学習のみで長尺動画モデルを構築できる。
- •フル解像度のアンカーフレームと32倍の時空間圧縮を組み合わせた独自の管理戦略を採用。
長尺で一貫性のある動画生成は、AIモデルにとって長年の課題であった。膨大なメモリ消費に加え、時間の経過とともにフレームが重複したり、映像が崩れたりする問題に直面しがちだったからだ。東京を拠点とするShanda AI Research(シャンダAIリサーチ)は、生成プロセスにおける履歴データであるKVキャッシュの保持方法を再定義することで、この限界を打破する革新的なフレームワーク「PackForcing」を発表した。
本システムは、コンテキストメモリに対して洗練された3部構成の管理手法を導入している。物語の全体像、すなわちグローバルな意味論を維持するために重要な初期の「アンカー」フレームはフル解像度で保存。一方で、動画の中間セクションについては、特殊なデュアルブランチネットワークを用いて32倍という高倍率で圧縮を行う。これにより、ハードウェアの限られたメモリを圧迫することなく、数分間に及ぶ映像データをモデルが把握し続けることが可能になった。
PackForcingの特筆すべき点は、わずか5秒の動画で学習したにもかかわらず、16fpsで2分間の高品質な映像を出力できる能力にある。動的な選択メカニズムと特殊な位置調整手法であるTemporal RoPEを駆使することで、長尺のシークエンスにおいても厳密な時間的一貫性を保つことに成功した。この概念実証は、短尺動画による教師あり学習が高品質な長尺合成に十分であることを示しており、動画AIにおけるデータと計算資源の障壁を大幅に下げるものと期待されている。