마이크로소프트, 추론 효율 30% 높인 Maia 200 공개
- •마이크로소프트가 가성비를 30% 향상시킨 추론 전용 가속기 Maia 200을 발표했다.
- •기존 방식보다 3배 더 효율적으로 열을 관리하는 혁신적인 미세유체 냉각 기술을 도입했다.
- •클라우드 네이티브 CPU인 Cobalt 200을 함께 출시하며 Azure의 AI 인프라 최적화를 완성했다.
마이크로소프트가 자체 설계 실리콘 포트폴리오를 대폭 확장하며 차세대 가속기 Maia 200을 출시했다. 이 칩은 AI 모델이 학습을 마친 후 실제 사용자 요청에 답변을 생성하는 단계인 '추론'에 최적화되어 설계된 것이 특징이다. 특히 범용 컴퓨팅 대신 특정 작업에 맞춘 하드웨어를 구축함에 따라, 마이크로소프트는 달러당 성능이 기존 대비 30% 향상되었다고 밝혔다. 이러한 효율성은 AI 서비스 이용량이 전 세계적으로 급증하는 상황에서 컴퓨팅 자원의 경제적 지속 가능성을 확보하는 데 결정적인 역할을 한다.
Maia 200의 설계에서 가장 돋보이는 점은 하드웨어와 소프트웨어가 유기적으로 맞물리는 '시스템 레벨' 접근 방식이다. 무엇보다 기술적 핵심으로 꼽히는 것은 '미세유체 냉각' 기술의 통합이다. 이 기술은 실리콘 칩 위에 직접 가공된 미세 통로로 액체를 흘려보내 열을 방출하며, 기존 공랭식이나 수랭식보다 냉각 효율을 최대 3배까지 끌어올렸다. 덕분에 프로세서는 대규모 언어 모델 (LLM) 구동 시 발생하는 막대한 작업 부하 속에서도 과열 걱정 없이 최상의 성능을 유지할 수 있다.
가속기와 더불어 마이크로소프트는 Azure 생태계 내 일반 작업을 처리할 클라우드 네이티브 CPU인 Cobalt 200도 함께 공개했다. Cobalt 200은 Maia 칩과 긴밀히 협업하며 데이터 센터의 에너지 사용량을 최적화하고 지연 시간을 줄이는 중추적인 역할을 수행한다. 이처럼 반도체 칩부터 소프트웨어 서비스 계층에 이르는 수직 계열화는 인프라 전반의 정밀한 조율을 가능하게 한다. 결과적으로 사용자들은 현대적인 파운데이션 모델 배포 환경에 최적화된, 더욱 빠르고 안정적인 AI 서비스를 경험하게 될 전망이다.