이 기사의 핵심 내용은?

구글 딥마인드가 로컬 기기에서 실행 가능한 오픈 웨이트 멀티모달 모델 Gemma 4를 출시했다. 2B부터 31B 파라미터까지 다양한 크기로 제공되며 텍스트, 이미지, 오디오 입력을 기본적으로 지원한다. Shared KV Cache와 Per-Layer Embeddings 기술을 도입하여 추론 효율과 긴 문맥 처리 능력을 강화했다.

구글 딥마인드, 온디바이스용 Gemma 4 모델 공개

•구글 딥마인드가 로컬 기기에서 실행 가능한 오픈 웨이트 멀티모달 모델 Gemma 4를 출시했다.
•2B부터 31B 파라미터까지 다양한 크기로 제공되며 텍스트, 이미지, 오디오 입력을 기본적으로 지원한다.
•Shared KV Cache와 Per-Layer Embeddings 기술을 도입하여 추론 효율과 긴 문맥 처리 능력을 강화했다.

구글 딥마인드가 로컬 기기 최적화에 초점을 맞춘 오픈 웨이트 모델 제품군인 Gemma 4를 공개했다. 이 모델들은 외부의 대형 슈퍼컴퓨터에 의존하지 않고도 노트북이나 스마트폰과 같은 기기에서 직접 구동될 수 있도록 설계되었다. 따라서 개발자는 데이터 프라이버시를 보호하면서도 지연 시간은 줄이고, 오프라인 환경에서도 강력한 AI 기능을 활용하는 이점을 누릴 수 있다.

Gemma 4는 2B 파라미터의 소형 모델부터 31B 파라미터의 고성능 모델까지 네 가지 크기로 출시되었다. 무엇보다 이 모델들은 텍스트뿐만 아니라 이미지와 오디오 데이터를 기본적으로 이해하는 멀티모달 특성을 갖췄다. 덕분에 클라우드 연결 없이도 객체 탐지, 영상 기반 질의응답, 이미지 캡셔닝과 같은 복잡한 작업을 기기 내부에서 수행할 수 있다.

기술적 측면에서는 소형 기기에서도 높은 성능을 유지하기 위해 아키텍처를 대폭 개선했다. 특히 'Shared KV Cache'를 통해 추론 시 메모리 사용량을 최소화했으며, 'Per-Layer Embeddings'를 도입해 각 레이어에서 정보를 더 세밀하게 처리하도록 구현했다. 구글은 이 모델들을 아파치 2 라이선스로 배포함으로써, 개발자가 소비자용 하드웨어에서 직접 복잡한 에이전트 애플리케이션을 구축할 수 있도록 진입 장벽을 대폭 낮추었다.

구글 딥마인드가 로컬 기기 최적화에 초점을 맞춘 오픈 웨이트 모델 제품군인 Gemma 4를 공개했다. 이 모델들은 외부의 대형 슈퍼컴퓨터에 의존하지 않고도 노트북이나 스마트폰과 같은 기기에서 직접 구동될 수 있도록 설계되었다. 따라서 개발자는 데이터 프라이버시를 보호하면서도 지연 시간은 줄이고, 오프라인 환경에서도 강력한 AI 기능을 활용하는 이점을 누릴 수 있다.

Gemma 4는 2B 파라미터의 소형 모델부터 31B 파라미터의 고성능 모델까지 네 가지 크기로 출시되었다. 무엇보다 이 모델들은 텍스트뿐만 아니라 이미지와 오디오 데이터를 기본적으로 이해하는 멀티모달 특성을 갖췄다. 덕분에 클라우드 연결 없이도 객체 탐지, 영상 기반 질의응답, 이미지 캡셔닝과 같은 복잡한 작업을 기기 내부에서 수행할 수 있다.

기술적 측면에서는 소형 기기에서도 높은 성능을 유지하기 위해 아키텍처를 대폭 개선했다. 특히 'Shared KV Cache'를 통해 추론 시 메모리 사용량을 최소화했으며, 'Per-Layer Embeddings'를 도입해 각 레이어에서 정보를 더 세밀하게 처리하도록 구현했다. 구글은 이 모델들을 아파치 2 라이선스로 배포함으로써, 개발자가 소비자용 하드웨어에서 직접 복잡한 에이전트 애플리케이션을 구축할 수 있도록 진입 장벽을 대폭 낮추었다.

구글 딥마인드, 온디바이스용 Gemma 4 모델 공개

태그