この記事の要点は？

ByteDanceが、人間中心の動画と音声を一元的に制御・生成する統合フレームワーク「DreamID-Omni」を公開した。新たな「二段階の分離技術」により、複数人が登場する動画での声の取り違えやアイデンティティの混乱を防止する。既存の主要な商用モデルを凌駕する一貫性と品質を実現し、SOTA（最先端）の性能を達成した。

ByteDanceがDreamID-Omniを発表、動画と音声を統合生成

•ByteDanceが、人間中心の動画と音声を一元的に制御・生成する統合フレームワーク「DreamID-Omni」を公開した。
•新たな「二段階の分離技術」により、複数人が登場する動画での声の取り違えやアイデンティティの混乱を防止する。
•既存の主要な商用モデルを凌駕する一貫性と品質を実現し、SOTA（最先端）の性能を達成した。

•ByteDanceが、人間中心の動画と音声を一元的に制御・生成する統合フレームワーク「DreamID-Omni」を公開した。
•新たな「二段階の分離技術」により、複数人が登場する動画での声の取り違えやアイデンティティの混乱を防止する。
•既存の主要な商用モデルを凌駕する一貫性と品質を実現し、SOTA（最先端）の性能を達成した。

ByteDanceは、人間中心の動画と音声を同期させて生成するという極めて困難な課題に挑む、野心的なAIフレームワーク「DreamID-Omni」を発表した。従来のモデルでは、一場面に複数の人物が登場すると声や顔が入れ替わることが珍しくなかったが、本システムはSymmetric Conditional Diffusion Transformerを用いることで、各要素を適切な位置に制御することに成功している。動画編集や音声駆動アニメーションなどを一つの統合タスクとして扱うことで、より多用途な制作ツールを実現したのである。

この技術の肝は、キャラクターが意図しない声で話してしまう「結合不全」を防ぐ二層構造の戦略にある。具体的には、人物の顔と音声を数学的に厳密に結びつけるSynchronized RoPE（Rotary Positional Embeddings）を実装した。さらに、「Structured Captions（構造化キャプション）」によってAIへ属性の帰属先を明示するセマンティックマッピングを組み合わせ、人物の混同を徹底して排除している。

加えて、DreamID-Omniは「マルチタスク逐次トレーニング」を採用した。これは、まず広範なパターンを学び、その後にリップシンクなどの細かな制約へと学習を絞り込む手法である。この「ソフトからハードへ」の段階的なプロセスにより、モデルの硬直化や過学習を回避した。その結果、既存のアカデミックな研究のみならず、最先端の商用モデルをも上回る視覚・聴覚的な調和を達成している。

ByteDanceは、人間中心の動画と音声を同期させて生成するという極めて困難な課題に挑む、野心的なAIフレームワーク「DreamID-Omni」を発表した。従来のモデルでは、一場面に複数の人物が登場すると声や顔が入れ替わることが珍しくなかったが、本システムはSymmetric Conditional Diffusion Transformerを用いることで、各要素を適切な位置に制御することに成功している。動画編集や音声駆動アニメーションなどを一つの統合タスクとして扱うことで、より多用途な制作ツールを実現したのである。

この技術の肝は、キャラクターが意図しない声で話してしまう「結合不全」を防ぐ二層構造の戦略にある。具体的には、人物の顔と音声を数学的に厳密に結びつけるSynchronized RoPE（Rotary Positional Embeddings）を実装した。さらに、「Structured Captions（構造化キャプション）」によってAIへ属性の帰属先を明示するセマンティックマッピングを組み合わせ、人物の混同を徹底して排除している。

加えて、DreamID-Omniは「マルチタスク逐次トレーニング」を採用した。これは、まず広範なパターンを学び、その後にリップシンクなどの細かな制約へと学習を絞り込む手法である。この「ソフトからハードへ」の段階的なプロセスにより、モデルの硬直化や過学習を回避した。その結果、既存のアカデミックな研究のみならず、最先端の商用モデルをも上回る視覚・聴覚的な調和を達成している。

ByteDanceがDreamID-Omniを発表、動画と音声を統合生成

タグ