구글 딥마인드, 온디바이스용 Gemma 4 모델 공개
2026년 4월 7일 (화)
- •구글 딥마인드가 로컬 기기에서 실행 가능한 오픈 웨이트 멀티모달 모델 Gemma 4를 출시했다.
- •2B부터 31B 파라미터까지 다양한 크기로 제공되며 텍스트, 이미지, 오디오 입력을 기본적으로 지원한다.
- •Shared KV Cache와 Per-Layer Embeddings 기술을 도입하여 추론 효율과 긴 문맥 처리 능력을 강화했다.
구글 딥마인드가 로컬 기기 최적화에 초점을 맞춘 오픈 웨이트 모델 제품군인 Gemma 4를 공개했다. 이 모델들은 외부의 대형 슈퍼컴퓨터에 의존하지 않고도 노트북이나 스마트폰과 같은 기기에서 직접 구동될 수 있도록 설계되었다. 따라서 개발자는 데이터 프라이버시를 보호하면서도 지연 시간은 줄이고, 오프라인 환경에서도 강력한 AI 기능을 활용하는 이점을 누릴 수 있다.
Gemma 4는 2B 파라미터의 소형 모델부터 31B 파라미터의 고성능 모델까지 네 가지 크기로 출시되었다. 무엇보다 이 모델들은 텍스트뿐만 아니라 이미지와 오디오 데이터를 기본적으로 이해하는 멀티모달 특성을 갖췄다. 덕분에 클라우드 연결 없이도 객체 탐지, 영상 기반 질의응답, 이미지 캡셔닝과 같은 복잡한 작업을 기기 내부에서 수행할 수 있다.
기술적 측면에서는 소형 기기에서도 높은 성능을 유지하기 위해 아키텍처를 대폭 개선했다. 특히 'Shared KV Cache'를 통해 추론 시 메모리 사용량을 최소화했으며, 'Per-Layer Embeddings'를 도입해 각 레이어에서 정보를 더 세밀하게 처리하도록 구현했다. 구글은 이 모델들을 아파치 2 라이선스로 배포함으로써, 개발자가 소비자용 하드웨어에서 직접 복잡한 에이전트 애플리케이션을 구축할 수 있도록 진입 장벽을 대폭 낮추었다.