AWS, 분산형 추론 기술로 AI 효율성 극대화
- •AWS와 llm-d가 대규모 모델의 프리필 및 디코딩 단계를 최적화하는 분산형 추론 기술을 공개했다.
- •쿠버네티스 기반의 새로운 프레임워크를 통해 GPU 활용도를 높이고 에이전트 AI의 운영 비용을 절감했다.
- •고속 RDMA 전송과 전문가 혼합 모델을 위한 병렬 처리 기술을 AWS 인프라에 네이티브로 통합했다.
AI 모델을 프로토타입에서 실제 서비스로 확장할 때 마주하게 되는 가장 큰 장벽은 추론 효율성이다. 기존의 모델 서빙 방식은 전체 과정을 단일 작업으로 처리하지만, 프롬프트를 읽어들이는 '프리필' 단계와 답변을 한 글자씩 생성하는 '디코딩' 단계는 사실 필요한 하드웨어 자원이 전혀 다르다. 이에 AWS는 llm-d 팀과 협력하여 클라우드 인프라에 분산형 추론 기술을 전격 도입했다. 이 방식은 각 단계를 특화된 GPU 클러스터로 분리하여 처리함으로써, 연산 집약적인 프롬프트 처리 과정이 메모리 효율이 중요한 생성 과정을 방해하지 않도록 최적화한다.
llm-d 프레임워크는 Amazon EKS와 SageMaker HyperPod 같은 쿠버네티스 환경을 위해 설계되었다. 특히 정교한 스케줄러를 도입해 대화의 맥락을 기억하는 'KV-cache'의 위치를 효율적으로 관리하며, 이를 통해 모델이 동일한 정보를 반복해서 계산하지 않도록 돕는다. 또한 고성능 네트워킹 기술과 NIXL 라이브러리를 기반으로 캐시 데이터를 노드 간에 초고속으로 전송할 수 있는 환경을 구축했다. 이는 최종 답변을 내놓기 전 복잡한 사고 과정을 거쳐야 하는 에이전트 AI 워크플로에서 시스템의 병목 현상을 해결하는 핵심 열쇠가 된다.
방대한 규모의 전문가 혼합 모델을 운영하는 조직을 위한 전문가 병렬 처리 기술도 주목할 만하다. 이 기법은 거대 모델의 각 부분을 여러 서버에 분산 배치하고, 이들이 지연 시간 없이 유기적으로 협업할 수 있도록 지원한다. AI가 점차 다단계 워크플로를 수행하는 정교한 형태로 진화함에 따라, 이러한 인프라 최적화는 단순한 챗봇 수준을 넘어 실시간으로 매끄럽게 작동하는 진정한 AI 에이전트를 구현하는 결정적인 차별점이 될 것이다.