Google、マルチモーダルなGemini Embedding 2を発表
- •Google DeepMindは、メディア処理を統合するネイティブなマルチモーダルモデル「Gemini Embedding 2」を公開した。
- •テキスト、画像、動画、音声を共通のセマンティック(意味的)な埋め込み空間にマッピングするシステムである。
- •Matryoshka Representation Learningの導入により、性能とストレージコストを最適化する柔軟な次元スケーリングが可能だ。
Googleは、異なるデータ形式の壁を取り払う画期的なモデル「Gemini Embedding 2」を正式に発表した。これはテキストや画像、動画、音声、そしてドキュメントを単一の統合された埋め込み空間に配置するように設計されている。メディアの種類ごとに個別のモデルを必要とした従来の手法とは異なり、ネイティブなマルチモーダルアプローチを採用することで、100以上の言語にわたる複雑な関係性を捉えることが可能だ。その結果、高度なAIパイプラインの構築が簡素化され、動画の内容と関連する技術文書を同時に分析するセマンティック検索エンジンのようなツールの開発が容易になる。
本モデルは技術的な柔軟性も高く、最大8,192のテキストトークンや120秒の動画、複数ページのドキュメントに対応している。特に注目すべきは「Matryoshka Representation Learning」の採用だ。これは埋め込みと呼ばれる数値表現のサイズを、デフォルトの3,072次元からより小さなサイズへと縮小できる巧妙な手法である。これにより、高いパフォーマンスを維持しながらストレージコストを抑制できるため、大規模なデータセットを扱う開発者であっても、効率的かつコストを抑えた運用が実現する。
また、Gemini Embedding 2は文字起こしを介さずに音声を直接取り込み、画像とテキストを組み合わせたインターリーブ入力を処理することで、より人間に近い情報の理解を再現している。現在はGemini APIやVertex AIを通じてパブリックプレビュー版が提供されており、すでに主要な開発フレームワークへの統合も始まっている。このリリースは、現実世界の多様で非構造化されたデータを自在に扱える、よりシームレスなマルチモーダルAI体験に向けた重要な一歩となるだろう。