AWS, SageMaker 기반 ML 피처 관리 효율화 도구 공개
- •AWS가 SageMaker Unified Studio 및 SageMaker Catalog 내에 중앙 집중식 오프라인 Feature Store 기능을 출시했다.
- •이 시스템은 트랜잭션 일관성과 기록 데이터 버전 관리를 위해 Amazon S3 Tables 및 Apache Iceberg를 활용한다.
- •새롭게 도입된 발행-구독 워크플로우를 통해 데이터 엔지니어와 데이터 과학자 간의 거버넌스 기반 피처 공유가 가능해졌다.
머신러닝 피처 관리는 데이터 엔지니어링 팀과 연구 팀이 일치하지 않는 데이터셋과 중복 작업으로 어려움을 겪는 경우가 많아 마치 '고장 난 전화기' 게임처럼 흐트러지기 쉽다. 이에 따라 아마존은 SageMaker 에코시스템 내에서 오프라인 Feature Store를 구축할 수 있는 간소화된 방식을 도입했다. 이러한 저장소는 AI 학습에 사용되는 특정 변수나 입력값인 과거 데이터를 안전하게 저장하고 버전을 관리하며, 조직 전체에 공유하는 중앙 집중식 라이브러리 역할을 수행한다.
이 솔루션의 기술적 중추는 Amazon S3 Tables와 Apache Iceberg이다. 이러한 조합을 통해 개발 팀은 방대한 데이터 컬렉션을 전통적인 데이터베이스처럼 다룰 수 있게 된다. 특히 시간 경과에 따른 변경 사항을 추적하는 타임 트래블 기능이나, 여러 사용자가 동시에 데이터를 수정하더라도 일관성을 유지하는 ACID 트랜잭션과 같은 복잡한 작업을 지원한다. 결과적으로 과학자들은 특정 시점의 데이터 스냅샷을 다시 확인하여 모델을 정확하게 재학습시킬 수 있으며, 미래 정보가 학습 세트에 유입되어 결과를 왜곡하는 데이터 누수 문제도 방지할 수 있다.
저장 기능 외에도 새롭게 공개된 SageMaker Catalog는 데이터 거버넌스를 위한 공식적인 발행-구독 모델을 제시한다. 이제 데이터 엔지니어는 파일을 수동으로 전달하는 대신 정제된 피처 세트를 검색 가능한 카탈로그에 게시할 수 있다. 데이터 과학자는 AI 기반 검색을 통해 필요한 데이터를 찾고 공식적인 승인 절차를 거쳐 접근 권한을 요청하게 된다. 이러한 구조화된 접근 방식은 실험 속도를 높일 뿐만 아니라, 모델에 사용되는 모든 데이터가 적절히 검증되고 추적되도록 보장한다.