AWS、SageMakerの統合ツールでML特徴量管理を簡素化
- •AWSがSageMaker Unified StudioおよびSageMaker Catalog内に、一元化されたオフラインフィーチャーストア機能を導入した。
- •システムにはAmazon S3 TablesとApache Icebergが採用され、トランザクションの整合性と履歴データのバージョン管理を実現している。
- •新たなパブリッシュ・サブスクライブ型ワークフローにより、エンジニアとサイエンティスト間の統制された特徴量共有が可能になった。
機械学習における特徴量管理は、データエンジニアリングチームとリサーチチームの間でデータセットの不一致や重複作業が発生しやすく、多くの組織で課題となっている。こうした「伝言ゲーム」のような非効率を解消するため、AmazonはSageMakerエコシステム内でオフラインフィーチャーストアを容易に構築できる新たな手法を導入した。これらのストアは一元化されたライブラリとして機能し、AIの学習に用いられる特定の変数や入力値(履歴データ)を、組織全体で安全に保存、バージョン管理、共有することを可能にする。
このソリューションの技術的基盤は、Amazon S3 TablesとApache Icebergによって支えられている。この組み合わせにより、膨大なデータ集合を従来のデータベースのように扱うことが可能になり、時間の経過に伴う変更の追跡(タイムトラベル)や、複数ユーザーによる同時編集時のデータ整合性確保(ACIDトランザクション)といった複雑な操作に対応した。このようにデータを整理することで、データサイエンティストは将来の情報が学習セットに混入して結果を歪めるデータリークを懸念することなく、過去の特定のスナップショットを利用してモデルを正確に再学習させることができる。
ストレージ機能に加え、新たに提供されるSageMaker Catalogは、データガバナンスのための正式なパブリッシュ・サブスクライブモデルを導入している。データエンジニアはファイルを手動で転送する手間を省き、厳選された特徴量セットを検索可能なカタログに公開できるようになった。データサイエンティストは、AI搭載の検索機能を通じて必要なデータを見つけ出し、正式な承認プロセスを経てアクセスをリクエストする。この構造化されたアプローチは、実験のスピードを向上させるだけでなく、モデルに使用されるすべてのデータが適切に精査・追跡されることを保証する。