SAMA、動画編集の精度を劇的に向上
2026年3月20日 (金)
- •SAMAは動画編集をセマンティック制御とモーション制御に分離し、編集と動きの整合性を最適化する。
- •オープンソースモデルとして最高水準の性能を達成し、主要な商用動画システムに匹敵する実力を備えている。
- •革新的な2段階学習により、動画と指示のペアデータなしでゼロショット編集を可能にした。
現在のAI動画編集においては、ユーザーの指示を反映することと、元の動画が持つ動きの整合性を保つことの間で常にジレンマが生じている。例えば、キャラクターの服装を変更しようとすると、意図せずキャラクターの動きが変わったり背景が不安定になったりすることが少なくない。SAMA(Factorized Semantic Anchoring and Motion Alignment)は、編集タスクを外見の制御と動きの制御という独立した2つのプロセスに分解することで、このボトルネックを解消した。
第一段階である「セマンティック・アンカリング」は、編集の構造的なプランナーとして機能する。これはフレーム全体から主要な視覚的アンカーを特定することで、複雑な背景の中でも新しいコンテンツがシーンの論理に適合するように調整する役割を担う。具体的には、動きを考慮する前にセマンティックトークンを予測し、修正のための確かな設計図を構築する。このアプローチにより、精度の低い動画ツールで発生しがちな「画像の歪み」を防ぎ、安定した基盤を提供することに成功した。
第二段階の「モーション・アライメント」では、動画の流動的なダイナミクスに焦点を当てる。モデルの事前学習において、動画の欠損補完(インペインティング)や再生速度の調整といったモーション中心のタスクを学習させることで、AIは現実世界における自然な動きを内面化している。このように機能を分離して処理することで、SAMAはKling-Omniのような商用大手に匹敵する高精度な結果を出しつつ、オープンソース特有の透明性とアクセシビリティを両立させている。