이 기사의 핵심 내용은?

Fireworks AI가 Azure 클라우드 개발자를 위해 마이크로소프트 Foundry 플랫폼에 저지연 오픈 모델 추론 기능을 도입했다. 이번 통합을 통해 DeepSeek V3.2, Kimi K2.5, MiniMax M2.5 등의 모델을 고속으로 처리할 수 있게 되었다. 새로운 'Bring-Your-Own-Weights' 기능을 활용하면 기업용 거버넌스를 유지하면서도 맞춤형 모델을 배포할 수 있다.

Fireworks AI, 마이크로소프트 Foundry에서 고성능 추론 서비스 출시

•Fireworks AI가 Azure 클라우드 개발자를 위해 마이크로소프트 Foundry 플랫폼에 저지연 오픈 모델 추론 기능을 도입했다.
•이번 통합을 통해 DeepSeek V3.2, Kimi K2.5, MiniMax M2.5 등의 모델을 고속으로 처리할 수 있게 되었다.
•새로운 'Bring-Your-Own-Weights' 기능을 활용하면 기업용 거버넌스를 유지하면서도 맞춤형 모델을 배포할 수 있다.

마이크로소프트는 Fireworks AI를 마이크로소프트 Foundry에 통합함으로써 Azure의 오픈소스 생태계 지원을 대폭 확장했다. 이에 따라 개발자들은 별도의 복잡한 서빙 인프라를 직접 구축할 필요 없이, 통합된 Azure 엔드포인트를 통해 고성능 추론 기능을 즉시 사용할 수 있다. 특히 기업 고객은 엔터프라이즈급 보안 및 규제 준수 환경 내에서 오픈 모델을 자유롭게 확장할 수 있다는 점이 큰 장점이다.

기술적으로 이번 통합은 강력한 처리 속도에 집중했으며, 매일 13조 개의 토큰을 처리할 수 있는 엔진을 기반으로 한다. DeepSeek V3.2나 MiniMax M2.5 같은 모델을 활용할 경우 지연 시간이 획기적으로 단축되며, 이는 곧 높은 데이터 처리량으로 이어진다. 무엇보다 이러한 성능 향상은 복잡한 문제를 다단계 추론으로 해결해야 하는 에이전트형 AI 환경에서 필수적인 경쟁력을 제공한다.

가장 차별화된 요소는 'Bring-Your-Own-Weights(BYOW)' 기능으로, 외부에서 최적화하거나 압축한 모델 가중치를 사용자가 직접 업로드할 수 있도록 지원한다. 이렇게 배포된 커스텀 모델은 단일 제어 평면을 통해 모니터링부터 관리까지 통합적으로 이루어진다. 또한 서버리스 기반의 사용량 요금제나 대규모 작업을 위한 전용 용량 방식을 선택할 수 있어 전체 AI 서비스 수명 주기에 최적화된 유연성을 갖췄다.

마이크로소프트의 거대한 컴퓨터 저장소(애저)가 인공지능 기술을 만드는 '파이어워크 AI'와 힘을 합치기로 했어요. 이제 인공지능을 만드는 사람들은 인공지능이 질문을 이해하고 정답을 말하는 과정(추론)을 아주 빠른 속도로 처리할 수 있게 되었습니다. 복잡한 컴퓨터 시스템(인프라)을 직접 만들지 않아도, 큰 회사들이 사용하는 것처럼 안전하고 믿을 수 있는 환경에서 인공지능을 마음껏 활용할 수 있습니다.

이 새로운 시스템은 속도가 무척 빠릅니다. 하루에 무려 13조 개의 글자 단위(토큰)를 처리할 수 있는 강력한 엔진을 사용하기 때문이죠. 덕분에 '딥시크(DeepSeek)'나 '미니맥스(MiniMax)' 같은 최신 인공지능 모델들이 더 빠르게 대답할 수 있게 되었습니다. 이런 빠른 속도는 인공지능이 사람의 도움 없이 스스로 생각하고 복잡한 문제를 해결하는 '비서 같은 인공지능(에이전틱 AI)'을 만드는 데 꼭 필요합니다.

가장 특별한 기능은 '내가 만든 지식 가져오기(BYOW)'입니다. 이것은 팀에서 직접 특별하게 가르치거나 크기를 줄여서 만든 인공지능을 그대로 가져와서 쓸 수 있는 기능입니다. 이렇게 가져온 인공지능들은 한곳에서 관리하는 시스템(제어 평면)을 통해 편리하게 살펴보고 움직일 수 있습니다. 인공지능을 사용한 만큼만 돈을 내거나 많은 일을 할 수 있게 미리 자리를 확보하는 등 다양한 방법으로 서비스를 이용할 수 있습니다.

Fireworks AI, 마이크로소프트 Foundry에서 고성능 추론 서비스 출시

내가 만든 인공지능을 마이크로소프트에서 더 빠르게 써요!

태그