Amazon、高度なRAGを実現するNova埋め込みモデルを公開
- •Amazon Nova Multimodal Embeddingsは、テキスト、画像、音声、動画を統合されたセマンティック空間でサポートする。
- •特化型の検索モードを備え、複雑なドキュメント解析のために最大3072次元のベクトル表現に対応した。
- •ネイティブなモデル・コンテキスト・プロトコル (MCP) 統合により、高度なエージェンティックAIへのデプロイを容易にする。
Amazon Web Services(AWS)は、テキスト、画像、動画、音声という異なる形式のデータの境界をなくす多才な基盤モデル「Amazon Nova Multimodal Embeddings」をAmazon Bedrock上で発表した。このモデルは、入力を「埋め込み」と呼ばれる数値表現に変換することで、似た概念が近くに配置される統合的なセマンティック空間を構築する。これにより、テキストによる説明から特定の動画シーンを探し出したり、製品画像を使ってECカタログから類似商品を検索したりといった、複雑なクロスモーダル検索が可能になった。
このモデルの特筆すべき点は、タスクごとに性能を最適化できる高度なカスタマイズ性にある。単一のアプローチを押し付けるのではなく、ストレージ用のインデックス作成や、ドキュメント画像・音声・動画に特化した検索モードをユーザーが選択できる設計だ。例えば、情報の密度が高い財務報告書を分析する場合、次元数を最大3072まで引き上げることで、より詳細な「数値の地図」を作成できる。これにより、複雑な表やグラフの内容も正確に捉えて抽出することが可能となる。
単なる検索にとどまらず、これらの埋め込みは、事実に基づいた回答を行う検索拡張生成 (RAG) を活用したエージェンティックAI(自律型AI)にとって極めて重要な構成要素となる。異なるAIツール間の通信を助けるオープンな標準規格「モデル・コンテキスト・プロトコル (MCP)」をサポートしたことで、開発者は高度な検索機能をAIアシスタントに直接組み込めるようになった。この統合により、AIが自律的に複数のメディア形式を横断して情報を取得・推論し、ユーザーの複雑な要求を解決するという洗練されたワークフローが実現する。