구글 딥마인드, 차세대 음악 생성 모델 Lyria 3 공개
- •구글 딥마인드가 고음질 음악 생성을 위한 Lyria 3 Pro 및 Lyria 3 Clip 모델을 출시했다.
- •텍스트 프롬프트와 이미지를 활용해 음악을 생성할 수 있는 새로운 멀티모달 기능이 도입되었다.
- •생성된 모든 음원에는 AI 콘텐츠 식별과 투명성 확보를 위한 SynthID 디지털 워터마킹 기술이 적용된다.
구글 딥마인드가 최신 음악 생성 기술인 Lyria 3를 개발자들에게 공개하며 퍼블릭 프리뷰를 시작했다. 이번 출시에는 최대 3분 길이의 완곡을 작곡할 수 있는 Lyria 3 Pro와 소셜 미디어 자산이나 루프 음원 제작에 최적화된 30초 분량의 Lyria 3 Clip이라는 두 가지 특화 모델이 포함되었다. 특히 음악적 일관성이 크게 향상됨에 따라, 도입부부터 마지막 후렴구까지 곡의 전체적인 구조가 조화롭게 유지되는 것이 특징이다.
Lyria 3는 단순한 텍스트 기반 오디오 생성을 넘어 결과물을 세밀하게 제어할 수 있는 정교한 기능을 도입했다. 개발자는 템포 컨디셔닝을 통해 분당 비트(BPM)를 구체적으로 설정하거나, 타임 얼라인드 가사 기능을 활용해 보컬이 등장하는 시점을 정확히 지정할 수 있다. 무엇보다 놀라운 점은 이미지와 텍스트 등 서로 다른 형태의 데이터를 함께 처리하는 멀티모달 입력을 지원한다는 것이다. 이로써 특정 이미지를 분위기나 스타일의 참조 자료로 삼아 시각적 영감을 청각적 결과물로 구현하는 것이 가능해졌다.
안전성 측면에서는 SynthID 통합을 통해 기술적 신뢰성을 확보했다. 이 디지털 워터마킹 기술은 오디오에 사람이 들을 수 없는 미세한 식별 층을 삽입하여, 파일이 편집되거나 압축된 후에도 해당 음원이 AI로 생성되었는지 여부를 검증할 수 있게 해준다. 구글은 창작의 자유와 명확한 출처 표기 사이의 균형을 맞춤으로써, Lyria 3가 인간 예술가를 대체하는 것이 아니라 창의성을 확장하는 보조적인 도구로 자리매김하는 것을 목표로 하고 있다. 현재 해당 모델들은 Gemini API와 구글 AI 스튜디오 내 전용 플레이그라운드에서 체험할 수 있다.