Amazon Bedrock、動画・音声のマルチモーダル検索に対応
- •Amazon Bedrock Knowledge Basesが、動画および音声コンテンツのマルチモーダル検索に対応した。
- •Amazon Novaのマルチモーダル埋め込みモデルにより、統一されたベクトル空間でのクロスモーダル検索が可能になる。
- •新機能のBedrock Data Automationが、マルチメディアをテキスト化し、精度の高い情報検索を実現する。
Amazon Web Services(AWS)は、Amazon Bedrock Knowledge Basesの機能を拡張し、マルチモーダルな検索機能の一般提供を開始した。これにより、企業は従来のテキストや静止画だけでなく、動画や音声ファイルも検索拡張生成 (RAG)のワークフローに直接組み込めるようになる。もはや複雑なカスタムパイプラインを自前で構築する必要はない。会議の録画や製品デモ、教育用ビデオといった多様な形式のデータを、単一のマネージドサービスでインデックス化できるようになった点は大きな進歩だ。 今回のアップデートの核となるのが、Amazon Nova マルチモーダル埋め込みモデルの導入である。このモデルは、異なるメディアタイプに対して共通のベクトル空間(意味の近い項目を数学的にグループ化する手法)を生成する。この統一的なアプローチにより、特定の画像から動画内の関連シーンを探したり、テキストでの説明をもとにカタログから視覚的に似た製品を見つけたりといった、高度なクロスモーダル検索が容易になった。法規制の遵守やコールセンターの分析など、一言一句の正確さが求められる場面では、Bedrock Data Automationを利用して、動画や音声を詳細なテキスト説明や書き起こしに変換してから埋め込みを行う手法も選択できる。 さらに利便性を高める工夫として、Bedrock Knowledge Basesは動画や音声を5〜30秒の検索可能なセグメントに自動で分割する。各セグメントには正確なタイムスタンプが含まれるため、アプリケーション側でソース映像の該当箇所へ即座にジャンプさせることが可能だ。こうしたRAGパイプラインの効率化は、現代のビジネス現場に埋もれている膨大なマルチフォーマットのデータから価値を引き出し、洗練されたAIアシスタントを開発しようとするエンジニアにとって強力な追い風となるだろう。