Meta、動画追跡を高速化する「SAM 3.1」公開
- •Metaが動画追跡を2倍高速化する「オブジェクト・マルチプレキシング」搭載のSAM 3.1をリリース
- •H100 GPU上で32 FPSを達成し、最大16個のオブジェクトを同時に処理可能
- •Instagramの動画エフェクトやFacebook Marketplaceの「View in Room」へ導入を拡大
MetaのAI研究チームは、Segment Anything Modelの大型アップデートとなる「SAM 3.1」を発表した。今回の更新では、高速な動画処理と「プロンプト可能な概念セグメンテーション(Promptable Concept Segmentation)」に焦点が当てられている。特に、各オブジェクトを個別に処理する手法から「グローバル・リーズニング(全域的な推論)」アプローチへと転換したことで、1回の推論処理で最大16個の異なるアイテムを同時に追跡できるようになった。
「オブジェクト・マルチプレキシング(Object Multiplexing)」と呼ばれるこの技術的飛躍により、H100 GPUなどのハイエンドハードウェアにおけるスループットは、従来の16 FPSから32 FPSへと倍増した。この効率化によって、複雑で混雑したシーンのリアルタイム処理が可能になった。また、高性能なアプリケーションをより一般的なハードウェアでも動作させやすくしている。単なる速度向上にとどまらず、SAM 3.1では「赤い縞模様の傘」といった自然言語のフレーズで対象を定義できる点も大きな特徴だ。
このアップデートは、新たな消費者向け機能にも活用されている。Instagramの「Edits」アプリでは、クリエイターがワンタップで特定の人物や物体に視覚効果を適用できるようになる。一方、Facebook Marketplaceでは、3D対応の姉妹モデル「SAM 3D」を活用した「View in Room」機能を展開する。これにより、購入検討中の家具が実際の居住空間にどのように収まるかを、ユーザーが視覚的に確認できるよう支援する。
このような高精度な処理に不可欠な膨大なデータセットを構築するため、Metaは人間によるレビューとLlamaモデル搭載のAIアノテーターを組み合わせた「データエンジン」を開発した。実際に、このハイブリッドシステムはデータラベリングの速度を最大5倍に高めている。その結果、開発チームは400万件を超える独自の視覚的概念のキュレーションに成功した。