구글, 청소년용 생성형 AI 안전 로드맵 공개
2026년 3월 11일 (수)
- •구글이 연령에 부적절한 콘텐츠와 유해한 상호작용을 차단하기 위한 다단계 보호 장치를 전격 도입했다.
- •콘텐츠 적대적 레드팀(CART)은 2025년 한 해 동안 모든 양식에 걸쳐 350회 이상의 적대적 테스트를 수행하며 시스템을 검증했다.
- •Gemini에 도입된 '가이드 학습' 기능은 학생들에게 대화형 맞춤형 교육 지원을 제공하여 실질적인 학습을 돕는다.
구글은 생성형 AI를 이용하는 청소년들을 위해 설계된 종합적인 안전 아키텍처를 발표했다. 이 프레임워크는 유해 콘텐츠로부터의 보호, 가족 내 디지털 관계 존중, 그리고 교육적 도구를 통한 탐색 지원이라는 세 가지 기둥을 중심으로 설계됐다. 특히 구글은 모델 생애 주기의 모든 단계에 분류기를 배치하여, 프롬프트 입력부터 최종 출력에 이르기까지 섭식 장애나 위험한 유행 등 연령에 부적절한 주제를 선제적으로 필터링하는 시스템을 구축했다.
단순한 필터링을 넘어 인간과 AI 간 상호작용에서 발생하는 심리적 특성도 세밀하게 고려했다. 구글은 AI가 자아를 가졌다고 주장하거나 연애 관계를 흉내 내는 것, 또는 유해한 인물을 연기하는 행위를 엄격히 금지하는 '페르소나 보호' 기능을 도입했다. 이러한 설계 철학은 청소년의 정서적 취약성을 반영한 결과이며, AI가 창의적이고 교육적인 조력자 역할을 유지하면서도 사용자가 부적절한 애착을 형성하지 않도록 방지하는 데 목적이 있다.
기술적 검증 측면에서는 엄격한 적대적 테스트를 거친다. 구글의 콘텐츠 적대적 레드팀(CART)은 프롬프트 인젝션 및 사이버 오용 가능성에 대비해 시스템에 부하를 주는 수백 건의 테스트를 완료했다. 이와 더불어 Gemini의 '가이드 학습' 기능은 단순한 정답 제공에서 벗어나 능동적인 학습 역량 강화로의 전환을 보여준다. 해당 기능은 복잡한 문제를 이해하기 쉬운 단계로 나누고 학생의 학습 수준에 맞춰 설명을 조정함으로써 진정한 이해를 이끌어낸다.