この記事の要点は？

Google DeepMindが高忠実度な音楽生成を可能にする「Lyria 3 Pro」と「Lyria 3 Clip」をリリースした。新たなマルチモーダル機能により、テキストだけでなく画像からも音楽を生成できるようになった。生成された楽曲には、AIコンテンツの透明性を確保するための電子透かし「SynthID」が埋め込まれる。

Google DeepMind、音楽生成モデル「Lyria 3」を発表

•Google DeepMindが高忠実度な音楽生成を可能にする「Lyria 3 Pro」と「Lyria 3 Clip」をリリースした。
•新たなマルチモーダル機能により、テキストだけでなく画像からも音楽を生成できるようになった。
•生成された楽曲には、AIコンテンツの透明性を確保するための電子透かし「SynthID」が埋め込まれる。

Google DeepMindは、最新の音楽生成技術「Lyria 3」のパブリックプレビューを開始し、開発者への提供を本格化した。今回のリリースには、最大3分のフル楽曲を構成できる「Lyria 3 Pro」と、30秒のループ音源やSNS向け素材の制作に特化した「Lyria 3 Clip」という2つのモデルが含まれている。これらのモデルは音楽的な一貫性が大幅に向上しており、楽曲の冒頭から末尾まで構造を調和させた状態で維持することが可能だ。

テキストプロンプトによる生成に加え、Lyria 3では出力を詳細に制御するための高度な操作系が導入された。例えば、「テンポコンディショニング」によって特定のBPMを指定したり、「タイムアラインド歌詞」を用いてボーカルが入るタイミングを正確に指示したりできる。特に注目すべきはマルチモーダル入力への対応である。画像から楽曲のムードや雰囲気を読み取ることが可能になり、視覚的なインスピレーションをそのまま聴覚的な表現へと繋げる橋渡し役を担っている。

また、安全性と透明性を確保するため、電子透かし技術「SynthID」が統合されている。これはオーディオ内に知覚不可能な識別情報を埋め込むもので、ファイルの編集や圧縮が行われた後でもAI生成物かどうかを容易に検証できる。Googleは、創造的な自由と適切な帰属のバランスを追求することで、Lyria 3をアーティストの代替ではなく、その創作活動を拡張する存在として位置づけている。現在、これらのモデルはGemini APIおよびGoogle AI Studioを通じてアクセス可能だ。

グーグルの「ディープマインド」というチームが、最新の音楽を作るAI（人工知能）である「リリア3（Lyria 3）」を開発しました。これには2つのタイプがあります。1つは、最大3分間の本格的な曲を作れる「プロ（Lyria 3 Pro）」。もう1つは、SNSなどで使いやすい30秒くらいの短い音楽をパッと作る「クリップ（Lyria 3 Clip）」です。このAIはとても賢く、曲の最初から最後までメロディがバラバラにならず、きれいにつながった音楽を作ることができます。

言葉で「明るい曲にして」とお願いするだけでなく、もっと細かい指示も出せます。例えば、曲の速さ（テンポ）を自由に決めたり、歌声がいつ入るかをぴったり指定したりできます。一番の驚きは、言葉だけでなく写真やイラストも見せて「こんな雰囲気の曲にして」と頼める機能（マルチモーダル）です。これにより、目で見ているイメージをそのまま耳で聴く音楽に変えることができるようになりました。

また、みんなが安心して使えるように工夫もされています。「シンスID（SynthID）」という技術を使って、耳には聞こえない特別な「デジタル上のスタンプ（デジタルウォーターマーク）」を曲の中に埋め込んでいます。これがあれば、たとえ曲が後から編集されても、それがAIで作られたものだと後から確認できます。グーグルは、このAIを人間の作曲家の代わりにするのではなく、みんなの創作を助ける「魔法の道具」にしたいと考えています。

Google DeepMind、音楽生成モデル「Lyria 3」を発表

グーグルが新しい「AI作曲家」を発表！絵や言葉から音楽が作れるように

タグ