구글, 향상된 멀티모달 기능 갖춘 Gemma 4 공개
- •구글이 2B에서 31B 파라미터 규모의 개방형 가중치 멀티모달 모델 4종을 출시했다.
- •Gemma 4 31B는 이전 모델 대비 추론 능력을 29포인트 개선하며 고성능 모델과 경쟁한다.
- •이미지, 영상, 음성 입력을 기본 지원하며 Apache 2.0 라이선스로 효율성을 극대화했다.
구글이 자사의 개방형 가중치 모델 라인업인 Gemma 4를 새롭게 선보였다. 이번 시리즈는 소형 에지 기기 최적화 모델부터 310억 파라미터 규모의 플래그십 모델까지 총 4가지 크기로 구성된다. 이는 개발자들이 다양한 하드웨어 환경에서 유연하고 강력한 도구를 활용할 수 있도록 돕는 중요한 전환점이 될 것으로 보인다.
이번 세대의 핵심은 강화된 멀티모달 능력이다. 이전 모델과 달리 Gemma 4는 모든 모델 크기에서 텍스트, 이미지, 영상을 기본적으로 처리하도록 설계되었다. 특히 소형 모델인 E4B와 E2B 모델은 음성 처리 기능까지 내장하여, 여러 모델을 복잡하게 연결하지 않고도 시각 및 청각 정보를 원활하게 처리할 수 있는 개발 환경을 제공한다.
성능 측면에서도 괄목할 만한 변화가 있었다. 플래그십 모델인 31B는 이전 Gemma 3 대비 추론 능력이 29포인트 향상되었다. 더욱 인상적인 점은 동일한 지능 수준을 가진 경쟁 모델 대비 토큰 효율성이 높아, 복잡한 추론 작업을 수행할 때 훨씬 적은 연산량을 소모한다는 것이다. 이는 운영 비용과 속도가 중요한 실제 애플리케이션 환경에서 큰 강점이 된다.
모델 구조의 다양성 또한 주목할 만하다. 예를 들어 26B 규모의 A4B 모델은 MoE 방식을 채택했다. 이는 요청 시 모델의 전체 매개변수가 아닌 일부만 활성화하는 기법으로, 추론 시 대부분의 매개변수를 비활성화하여 대규모 모델이면서도 연산 효율성을 높인 것이 특징이다.
접근성 또한 이번 출시의 핵심 요소다. Apache 2.0 라이선스를 채택하여 기존 버전에 있던 제약 사항들을 상당 부분 해소했다. 특히 에지 컴퓨팅을 위한 2B 모델은 4비트 양자화 상태에서 3GB RAM으로 구동 가능하다. 덕분에 모바일 기기에서도 서버 연결 없이 실시간으로 정교한 추론 기능을 개인화된 환경에서 경험할 수 있게 되었다.