高速・単一ストリームの音像生成モデル「daVinci-MagiHuman」
2026年3月25日 (水)
- •独自の単一ストリームTransformerにより、テキスト・映像・音声の高度な同期を実現。
- •H100ハードウェアにて、5秒間の同期済み256p動画をわずか2秒で生成可能。
- •ベースモデル、蒸留済みモデル、超解像モデルを含むスタック全体と推論コードを公開。
SII-GAIRとSand.aiの研究チームは、高速かつ人間中心のコンテンツ作成に特化した画期的な生成基盤モデル「daVinci-MagiHuman」を発表した。従来のモデルは、異なる種類のデータを結びつけるために複雑なマルチストリームやクロスアテンション構造に依存していたが、本モデルは「単一ストリームTransformer」を採用している。これにより、テキスト、映像、音声を共通のトークン(モデルが理解するデータの最小単位)として一元的に処理し、自己アテンションのみを用いて、これらデータ間の複雑な相関関係を管理する仕組みを構築した。
この合理化されたアプローチは、出力の質を損なうことなく効率を大幅に向上させた。特に、自然な発話と表情、さらにはリアルな身体の動きを連動させる能力に長けており、英語、中国語、フランス語を含む多言語に対応している。また、推論プロセスを加速させるため、チームは大型モデルの挙動を小型モデルに模倣させるモデル蒸留技術に加え、高速処理を可能にするTurbo VAEデコーダーを統合した。
こうした最適化の結果、プロフェッショナル向けハードウェア上で5秒間の同期済み動画と音声をわずか2秒で生成できるようになった。ベンチマークテストでは、daVinci-MagiHumanが視覚的な整合性と音声の明瞭度の両面において、既存のオープンソースモデルを凌駕していることが示されている。開発チームはスタック全体をオープンソースとして公開することで、リアルでインタラクティブなヒューマンアバターや高精細なメディアツールの開発における強力な基盤を提供することを目指している。