AWS와 TGS, 지진파 AI 학습 속도 36배 가속
- •TGS와 AWS가 지진파 파운데이션 모델을 최적화하여 기존 6개월이 걸리던 학습 시간을 단 5일로 단축했다.
- •컨텍스트 병렬화 기술을 통해 3D 볼륨 분석을 위한 모델의 시야를 4.5배 확장했다.
- •Amazon SageMaker HyperPod와 DeepSpeed ZeRO-2를 활용해 128개의 NVIDIA H200 GPU에서 선형에 가까운 확장성을 구현했다.
지질 탐사 데이터 분야의 선두 주자인 TGS가 AWS 기반의 AI 학습 인프라를 현대화하며 지하 분석 역량에서 획기적인 돌파구를 마련했다. 이들은 Amazon SageMaker HyperPod를 활용해 에너지 자원 탐색을 위한 복잡한 3D 지진파 데이터를 분석하는 Vision Transformer(ViT) 아키텍처를 최적화했다. 이러한 인프라 혁신을 통해 기존 6개월에 달하던 고통스러운 학습 주기를 단 5일로 줄였으며, 결과적으로 연간 2회에 불과했던 모델 업데이트를 매주 수행할 수 있을 정도로 효율성을 36배나 끌어올렸다.
이번 협력의 핵심은 방대한 3D 데이터 볼륨에서 발생하는 병목 현상을 해결하는 데 있었다. TGS 팀은 전통적인 파일 시스템 대신 Amazon S3에서 직접 데이터를 스트리밍하는 파이프라인을 구축하여 최대 80GBps의 통합 처리량을 확보했다. 또한 엄청난 계산 부하를 관리하기 위해 DeepSpeed ZeRO-2를 도입하여 128개의 NVIDIA H200 GPU에 모델 상태를 분산시켰으며, 이를 통해 메모리 오버헤드를 최소화하면서도 시스템 규모에 비례하는 성능 향상을 달성했다.
기술적으로 가장 주목할 만한 성과는 모델의 컨텍스트 윈도우를 4.5배 확장했다는 점이다. GPU들이 원형 사슬 형태로 데이터를 공유하는 Ring Attention 기법을 적용함으로써 모델은 이제 110만 개 이상의 토큰을 동시에 처리할 수 있게 되었다. 이러한 확장된 시야 덕분에 AI는 미세한 균열부터 분지 전체의 지질학적 패턴까지 동시에 파악할 수 있게 되었으며, 이는 에너지 탐사 분야에서 전례 없는 정밀함을 제공한다.