会話から映画を生成、テンセントの革新的AI
2026年1月27日 (火)
- •Tencent Hunyuanが、生の会話を高品質な映画風動画へと変換するエンドツーエンドのエージェンティックAIフレームワークを発表した。
- •脚本制作を担う「ScripterAgent」と、シーン間の動画モデル制御を行う「DirectorAgent」の二段階構成を採用している。
- •長期的な物語の整合性を測定するため、データセット「ScriptBench」と独自の評価指標「映像・脚本アラインメント」を導入した。
現在のAI動画生成は、視覚的に美しい短尺クリップの制作には長けている。しかし、長時間の動画において一貫した物語を維持しようとすると、途端に破綻をきたす傾向がある。 こうしたクリエイティブな構想と映像化の間の「意味のギャップ」を埋めるため、Tencent Hunyuanの研究チームは、映画制作を単一のプロンプト処理ではなく、多段階のオーケストレーション・プロセスとして捉える新しいエージェンティックAIの枠組みを公開した。 システムの核となるのは、ScripterAgentとDirectorAgentという2つのコンポーネントだ。ScripterAgentは脚本家の役割を果たし、曖昧な会話内容を詳細かつ実行可能な脚本へと作り変える。 この脚本を設計図として、DirectorAgentがシーン間連続生成戦略を用いて、複数の最新動画生成モデルを制御する仕組みだ。これにより、単体モデルでは困難だった登場人物や設定、照明の「長期的な一貫性」を複数のシーンにわたって保つことが可能になった。 さらにチームは、AIが複雑な脚本にどれだけ忠実に映像を合わせられるかを評価する大規模ベンチマーク「ScriptBench」を開発した。 研究の結果、一部のモデルは派手な映像を作る一方で、元の脚本の指示から逸脱しやすいという重大なトレードオフが浮き彫りになった。物語への忠実さを定量化する「映像・脚本アラインメント(VSA)」指標の導入は、映画制作の完全自動化に向けた大きな一歩と言えるだろう。