Fireworks AI, 마이크로소프트 Foundry에서 고성능 추론 서비스 출시
2026년 3월 11일 (수)
- •Fireworks AI가 Azure 클라우드 개발자를 위해 마이크로소프트 Foundry 플랫폼에 저지연 오픈 모델 추론 기능을 도입했다.
- •이번 통합을 통해 DeepSeek V3.2, Kimi K2.5, MiniMax M2.5 등의 모델을 고속으로 처리할 수 있게 되었다.
- •새로운 'Bring-Your-Own-Weights' 기능을 활용하면 기업용 거버넌스를 유지하면서도 맞춤형 모델을 배포할 수 있다.
마이크로소프트는 Fireworks AI를 마이크로소프트 Foundry에 통합함으로써 Azure의 오픈소스 생태계 지원을 대폭 확장했다. 이에 따라 개발자들은 별도의 복잡한 서빙 인프라를 직접 구축할 필요 없이, 통합된 Azure 엔드포인트를 통해 고성능 추론 기능을 즉시 사용할 수 있다. 특히 기업 고객은 엔터프라이즈급 보안 및 규제 준수 환경 내에서 오픈 모델을 자유롭게 확장할 수 있다는 점이 큰 장점이다.
기술적으로 이번 통합은 강력한 처리 속도에 집중했으며, 매일 13조 개의 토큰을 처리할 수 있는 엔진을 기반으로 한다. DeepSeek V3.2나 MiniMax M2.5 같은 모델을 활용할 경우 지연 시간이 획기적으로 단축되며, 이는 곧 높은 데이터 처리량으로 이어진다. 무엇보다 이러한 성능 향상은 복잡한 문제를 다단계 추론으로 해결해야 하는 에이전트형 AI 환경에서 필수적인 경쟁력을 제공한다.
가장 차별화된 요소는 'Bring-Your-Own-Weights(BYOW)' 기능으로, 외부에서 최적화하거나 압축한 모델 가중치를 사용자가 직접 업로드할 수 있도록 지원한다. 이렇게 배포된 커스텀 모델은 단일 제어 평면을 통해 모니터링부터 관리까지 통합적으로 이루어진다. 또한 서버리스 기반의 사용량 요금제나 대규모 작업을 위한 전용 용량 방식을 선택할 수 있어 전체 AI 서비스 수명 주기에 최적화된 유연성을 갖췄다.