Astrolabe、フォワードプロセス強化学習でビデオAIを最適化
2026年3月23日 (月)
- •Astrolabeフレームワークは、効率的な強化学習を用いて、蒸留されたビデオモデルを人間の視覚的嗜好に適合させる。
- •新たな「フォワードプロセス」の定式化により、トレーニング中の高コストな逆プロセス展開を排除し、メモリ消費を大幅に削減する。
- •ストリーミングトレーニング手法の導入により、時間的一貫性を維持しながら長尺ビデオの生成を可能にする。
蒸留された自己回帰モデル(ARビデオモデル)は、AI生成コンテンツにおけるスピードの要であり、リアルタイムでのビデオストリーミングを実現する。しかし、これらのモデルは速度を優先するあまり品質を犠牲にすることが多く、視覚的なノイズが発生したり、人間の感性に合わないシーンが生成されたりするという課題を抱えていた。
従来、この問題を解決するために強化学習(RL)が用いられてきたが、ビデオ生成プロセスの全ステップを再計算する必要があり、膨大な計算資源を要していた。そこでAstrolabeの研究チームは、「フォワードプロセス」による強化学習アプローチを導入した。これは生成過程をすべて遡るのではなく、最終的な出力段階で成功したフレームと失敗したフレームを比較する手法である。このショートカットにより、重いメモリ負荷を回避しつつ、改善のための明確な指針を提供することに成功した。
また、長尺ビデオの一貫性を保つために、Astrolabeはストリーミングトレーニング技術を採用している。これはビデオを細かなセグメントに分割して処理しつつ、以前の文脈を保持する「メモリバンク(KVキャッシュ)」を活用する仕組みだ。これにより、シーンの途中でキャラクターの服の色が突然変わるといった不自然な現象を防ぎ、安定した映像表現を可能にしている。
さらに、AIが本来の目的を逸脱して高スコアを得ようとする「報酬ハッキング」の問題にも対処している。複数の目標のバランスをとり、安定した参照点を用いることで、Astrolabeはモデル独自の処理速度を維持したまま、さまざまなビデオモデルの審美的品質を一貫して向上させた。