이 기사의 핵심 내용은?

Cloudflare Workers AI에 Moonshot AI의 Kimi K2.5 등 최첨단 모델이 새롭게 추가되었다. Prefix Caching과 세션 어피니티 헤더 도입으로 추론 비용을 최대 77%까지 절감했다. 개편된 비동기 API를 통해 대규모 비실시간 에이전트 작업의 안정적 실행을 지원한다.

Cloudflare, Kimi K2.5 지원으로 AI 에이전트 경쟁력 강화

•Cloudflare Workers AI에 Moonshot AI의 Kimi K2.5 등 최첨단 모델이 새롭게 추가되었다.
•Prefix Caching과 세션 어피니티 헤더 도입으로 추론 비용을 최대 77%까지 절감했다.
•개편된 비동기 API를 통해 대규모 비실시간 에이전트 작업의 안정적 실행을 지원한다.

Cloudflare가 자사 인프라에 최첨단 오픈소스 모델을 직접 통합하며 개발자 플랫폼을 AI 에이전트 구축 및 배포의 핵심 거점으로 구축하고 있다. 그 시작으로 Moonshot AI의 Kimi K2.5 모델이 도입되었는데, 이 모델은 한 번에 처리할 수 있는 정보량인 컨텍스트 윈도우가 256k에 달하며 강력한 시각 지능과 Tool Calling 기능을 갖췄다. 특히 이번 조치는 Cloudflare가 기존의 소규모 특화 모델 호스팅을 넘어 에이전트의 전체 생애주기를 관리하는 풀스택 환경으로 진화했음을 의미한다.

이러한 고부하 작업을 최적화하기 위해 Cloudflare는 Prefix Caching과 세션 어피니티 헤더를 도입했다. 에이전트가 여러 차례 대화를 주고받을 때 이전 맥락의 상당 부분은 변하지 않는데, Prefix Caching은 초기 입력값의 수학적 표현인 텐서를 저장하여 후속 요청 시 중복 처리를 생략한다. 또한 개발자가 세션 어피니티 헤더를 사용하여 요청을 동일한 모델 인스턴스로 라우팅하면 캐시 적중률이 극대화된다. 실제로 이를 통해 기존 상용 모델 대비 비용을 최대 77%까지 절감하는 성과를 거두었다.

한편 서버리스 환경의 고질적인 불안정성을 해결하고자 비동기 API도 전면 개편했다. 이 시스템은 유휴 GPU 용량을 활용해 대규모 추론 배치를 관리하며, 코드 스캐닝이나 심층 조사와 같은 비실시간 작업에서 발생하는 용량 오류를 효과적으로 제거한다. 이러한 인프라 업데이트는 기업용 자율 에이전트의 평가 기준이 단순한 성능을 넘어 비용 효율성과 안정적인 확장성으로 이동하고 있음을 시사한다.

Cloudflare가 자사 인프라에 최첨단 오픈소스 모델을 직접 통합하며 개발자 플랫폼을 AI 에이전트 구축 및 배포의 핵심 거점으로 구축하고 있다. 그 시작으로 Moonshot AI의 Kimi K2.5 모델이 도입되었는데, 이 모델은 한 번에 처리할 수 있는 정보량인 컨텍스트 윈도우가 256k에 달하며 강력한 시각 지능과 Tool Calling 기능을 갖췄다. 특히 이번 조치는 Cloudflare가 기존의 소규모 특화 모델 호스팅을 넘어 에이전트의 전체 생애주기를 관리하는 풀스택 환경으로 진화했음을 의미한다.

이러한 고부하 작업을 최적화하기 위해 Cloudflare는 Prefix Caching과 세션 어피니티 헤더를 도입했다. 에이전트가 여러 차례 대화를 주고받을 때 이전 맥락의 상당 부분은 변하지 않는데, Prefix Caching은 초기 입력값의 수학적 표현인 텐서를 저장하여 후속 요청 시 중복 처리를 생략한다. 또한 개발자가 세션 어피니티 헤더를 사용하여 요청을 동일한 모델 인스턴스로 라우팅하면 캐시 적중률이 극대화된다. 실제로 이를 통해 기존 상용 모델 대비 비용을 최대 77%까지 절감하는 성과를 거두었다.

한편 서버리스 환경의 고질적인 불안정성을 해결하고자 비동기 API도 전면 개편했다. 이 시스템은 유휴 GPU 용량을 활용해 대규모 추론 배치를 관리하며, 코드 스캐닝이나 심층 조사와 같은 비실시간 작업에서 발생하는 용량 오류를 효과적으로 제거한다. 이러한 인프라 업데이트는 기업용 자율 에이전트의 평가 기준이 단순한 성능을 넘어 비용 효율성과 안정적인 확장성으로 이동하고 있음을 시사한다.

Cloudflare, Kimi K2.5 지원으로 AI 에이전트 경쟁력 강화

태그