Cloudflare, AI 에이전트 컨텍스트 비용 99% 절감
- •Cloudflare가 도구 컨텍스트 사용량을 99.9% 줄여주는 'Code Mode' 모델 컨텍스트 프로토콜 서버를 출시했다.
- •2,500개 이상의 API 엔드포인트를 단 두 개의 도구로 대체하여 토큰 사용량을 1,000개로 고정했다.
- •에이전트 코드는 V8 기반 샌드박스 내부에서 실행되어 안전한 API 관리를 보장한다.
AI 에이전트는 흔히 '컨텍스트 비대화(context bloat)' 현상으로 인해 어려움을 겪는다. 외부 도구를 너무 많이 로드하면 정작 모델이 실제 작업을 처리할 컨텍스트 윈도우 공간이 부족해지기 때문이다. Cloudflare는 자사의 모델 컨텍스트 프로토콜 서버에 'Code Mode'를 도입해 이 문제를 해결했다. 기존 방식은 2,500개가 넘는 모든 API 엔드포인트를 개별 도구로 설명해야 했으며, 이는 100만 개 이상의 토큰을 소모하는 구조였다. 하지만 이제는 '검색'과 '실행'이라는 단 두 가지 특화된 도구만으로 동일한 작업을 수행할 수 있다.
이러한 아키텍처에서 AI 에이전트는 마치 개발자처럼 행동한다. 먼저 검색 도구를 사용해 특정 API 문서를 찾은 뒤, 실행 도구를 통해 작업을 수행할 JavaScript 코드를 직접 작성하는 방식이다. 이른바 '계획으로서의 코드(code as a plan)' 전략은 API 규모가 아무리 커지더라도 토큰 사용량을 1,000개 수준으로 일정하게 유지해 준다. 결과적으로 모델의 메모리는 사용자의 요청을 처리하는 본연의 목적에 더욱 집중할 수 있게 되었다.
보안 역시 최우선 순위로 고려되었다. 에이전트가 생성한 코드는 'Dynamic Worker isolate' 내에서 실행되는데, 이 V8 기반의 샌드박스는 에이전트가 민감한 시스템 파일에 접근하거나 환경 변수를 유출하는 것을 방지한다. 즉, 자동화된 API 오케스트레이션을 위한 안전한 환경을 구축한 것이다. 또한 Cloudflare는 Code Mode SDK를 오픈소스로 공개했다. 이에 따라 개발자들은 자신의 에이전트 시스템에 이 효율적인 구조를 도입하여 비용을 절감하고 성능을 대폭 향상할 수 있게 되었다.