구글 딥마인드, 고효율 AI Gemini 3.1 Flash-Lite 공개
2026년 3월 3일 (화)
- •구글 딥마인드가 대규모 개발자 워크로드를 위해 속도와 비용 효율성을 극대화한 Gemini 3.1 Flash-Lite를 선보였다.
- •이 모델은 이전 버전 대비 응답 시간이 2.5배 빨라졌으며, 출력 속도는 45% 향상되는 비약적인 발전을 이루었다.
- •새로운 '사고 수준(thinking levels)' 설정을 통해 개발자는 추론의 깊이를 조절하며 성능과 운영 비용의 균형을 맞출 수 있다.
구글 딥마인드(Google DeepMind)가 대규모 데이터를 효율적으로 처리할 수 있도록 설계된 Gemini 3.1 Flash-Lite를 출시하며 모델 라인업을 확장했다. 특히 시스템이 프롬프트에 반응하는 지연 시간(latency)을 대폭 개선하여, 이전 세대보다 2.5배 빠른 '첫 토큰 생성 시간'을 달성한 점이 돋보인다. 실제로 실시간 고객 응대나 콘텐츠 중재처럼 빠른 반응이 필수적인 비즈니스 환경에서 이러한 속도 향상은 사용자 경험을 혁신적으로 개선할 수 있는 핵심 요소다.
또한 개발자가 작업에 따른 추론의 깊이를 직접 선택할 수 있는 '가변적 사고 수준' 기능이 새롭게 도입되었다. 이 기능을 통해 사용자는 간단한 질문에는 신속하고 가벼운 답변을, 복잡한 문제에는 심층적인 단계별 분석을 수행하도록 연산 자원의 투입량을 유연하게 조절할 수 있다. 이는 지능의 수준을 워크로드의 특성에 맞춰 최적화하려는 실용적인 접근 방식으로 평가받는다.
비록 'Lite'라는 명칭이 붙었으나 성능 면에서는 전문가 수준의 높은 역량을 보여준다. 과학 및 논리 지식을 평가하는 GPQA Diamond 테스트에서 86.9%를 기록하며 강력한 지능을 입증했으며, 텍스트와 이미지를 동시에 처리하는 멀티모달 작업에서도 뛰어난 성과를 거두었다. 이처럼 높은 정확도와 입력 토큰 100만 개당 0.25달러라는 압도적인 가성비를 바탕으로 구글은 Gemini 3.1 Flash-Lite를 차세대 고빈도 AI 에이전트 시장의 핵심 엔진으로 자리매김하려 한다.