Google uruchomił w aplikacji Gemini nową funkcję generowania muzyki, opartą o model Lyria 3 z Google DeepMind. Narzędzie działa w formie bety i pozwala tworzyć krótkie, 30-sekundowe utwory na podstawie opisu tekstowego, a także materiałów wizualnych takich jak zdjęcia.
Zasada działania jest podobna do innych generatywnych funkcji w Gemini. Użytkownik opisuje gatunek, nastrój, tempo lub ogólny pomysł, a system generuje instrumental albo utwór z wokalem i tekstem, ponieważ model potrafi tworzyć także słowa piosenki.
Google podkreśla większą kontrolę nad stylem i tempem oraz poprawę realizmu i głębi brzmienia względem wcześniejszych wersji Lyria.
Wygenerowane nagrania mają własne okładki tworzone automatycznie przez narzędzie Nano Banana, co ma ułatwić szybkie udostępnianie gotowego klipu. Z poziomu Gemini można taki utwór pobrać lub udostępnić link.
Lyria 3 trafia też do YouTube. Model zasila funkcję Dream Track, która pozwala twórcom generować ścieżki dźwiękowe do Shorts. W dokumentacji YouTube wskazano, że dostępność Dream Track zależy od rynku i ustawień, a funkcja nie jest oferowana wszędzie na tych samych zasadach.
Istotnym elementem jest warstwa identyfikacji treści generowanych przez AI. Google informuje, że utwory stworzone w Gemini zawierają znak wodny SynthID osadzony w dźwięku. Jednocześnie Gemini ma możliwość weryfikacji plików audio pod kątem obecności SynthID, co rozszerza dotychczasowe podejście do rozpoznawania treści generowanych przez modele Google także na nagrania.
Google deklaruje, że podczas rozwoju modelu stosuje mechanizmy ograniczające generowanie utworów zbyt podobnych do stylu konkretnych artystów oraz przewiduje ścieżki zgłaszania potencjalnych naruszeń.