OpenMOSSが映像・音声を同時生成する「MOVA」を公開
- •OpenMOSSが、映像と音声を高精度に同期させて生成できる320億パラメータのオープンソースモデル「MOVA」を発表した。
- •混合専門家モデル(MoE)を採用しており、推論時には180億パラメータのみを活性化させることで、高いパフォーマンスと効率性を両立している。
- •画像から映像と音声を生成するタスクに対応し、正確なリップシンクや臨場感のある効果音、内容に即した音楽を同時に提供する。
高品質な映像を生成するだけでも難しい課題だが、それに現実的な音声を完璧に同期させることはさらに困難とされてきた。これまでのAIシステムは、映像用と音声用のモデルを別々に組み合わせる「カスケード方式」に依存しており、タイミングのズレやエラーの蓄積が避けられなかった。これに対し、OpenMOSSの開発チームは320億パラメータを持つ巨大モデル「MOVA(MOSS Video and Audio)」を開発し、映像と音声を同時に生成するアプローチを採用した。この共同モデリングにより、打ち寄せる波の音や話者の口の動きが、視覚的なフレームと極めて高い精度で一致するようになったのである。
このモデルの核となるのが、混合専門家モデル(MoE)と呼ばれるアーキテクチャだ。これは特定のタスクに対して、チーム内の関連性が高い「専門家」に相当するサブモデルのみを呼び出す仕組みである。モデル全体では320億のパラメータを保持しているが、実際にコンテンツを生成する「推論」の段階で動くのは180億パラメータに抑えられている。その結果、出力の質を落とすことなく計算負荷を大幅に削減することに成功した。これにより、一枚の画像とテキスト指示から、映画のような臨場感あふれる視聴覚体験を効率的に生み出すことが可能となった。
OpenMOSSはMOVAをオープンソースとして公開することで、既存のクローズドなシステムに対する透明性の高い選択肢を提示している。公開内容にはモデルの重みに加え、LoRA (Low-Rank Adaptation)による微調整をサポートするコードも含まれており、制作者は最小限のデータで特定のスタイルや音声にAIを適応させることができる。精密なリップシンクから環境音まで、MOVAは次世代のデジタルストーリーテラーやAI研究者にとって、汎用性が高くアクセスしやすいツールとなるだろう。