AWS、Novaモデルによる大規模動画検索を実現
2026年3月12日 (木)
- •Amazon Novaモデルを活用し、8,480時間の動画コンテンツをわずか41時間で処理
- •自然言語によるテキスト・動画間、および動画間での大規模なセマンティック検索が可能に
- •最適化されたマルチモーダル埋め込みにより、動画79.2万本の取り込みコストを18,088ドルに抑制
AWSは、視覚データと音声データを一つの数値表現へと統合し、コンピュータによる動画内容の理解を可能にする「マルチモーダル埋め込み」の管理に向けた堅牢なアーキテクチャを導入した。新たなAmazon Novaモデル群を活用することで、開発者は手動のタグ付けや単純なキーワード検索に頼ることなく、膨大なメディアライブラリのインデックス作成が可能になる。単なる単語の完全一致ではなく、意味に基づいた内容を探し出すセマンティック検索への移行は、約80万本の動画を用いた大規模な実験を通じて実証されている。
技術的なパイプラインにはAmazon Novaマルチモーダル埋め込みが採用されており、動画を15秒ごとのセグメントに分割することで、シーンの変化を捉えつつ効率的なストレージ保存を実現している。特筆すべきは、1024次元の埋め込みデータを使用することで、検索精度をほぼ維持したまま、より大きな形式と比較して3倍のコスト削減に成功した点だ。さらに高い精度を求める場合には、概念的な数学的近接性を測るベクトル類似度と、従来のキーワードマッチングを組み合わせた「ハイブリッド検索」アプローチが採用される。
8,000時間を超える膨大な映像データの処理はわずか41時間で完了し、初年度のコストは約27,000ドルに抑えられた。この成果は、メディア・エンターテインメント企業にとって、産業規模のAIデータレイクが経済的に実現可能な選択肢となったことを示している。Amazon Nova Liteによる説明的なタグ付けとOpenSearchでのインデックス作成を組み合わせることで、メタデータではなく視覚的な文脈に基づいて類似クリップを特定する「動画間検索」の導入が現実のものとなった。