MusicLM od Google sa zdalo sľubné so svojou schopnosťou generovať hudbu z textových výziev. Ale po tom, čo to otestoval, sa to celkom nepodarilo.
V januári 2023 Google oznámil MusicLM, experimentálny nástroj AI, ktorý dokáže generovať hudbu na základe textových popisov. Popri novinkách Google zverejnil úžasný výskumný dokument pre MusicLM, ktorý mnohých ľudí oslnil schopnosťou vykúzliť hudbu zo vzduchu.
Na základe textovej výzvy model sľúbil, že bude produkovať hudbu s vysokou vernosťou, ktorá bude obsahovať všetky druhy opisov od žánru po nástroj až po abstraktné titulky popisujúce slávne umelecké diela. Teraz, keď je MusicLM otvorený pre verejnosť, rozhodli sme sa ho otestovať.
Pokus spoločnosti Google vytvoriť hudobný generátor AI
Premena textovej výzvy ako „relaxačný jazz“ na skladbu pripravenú na prehrávanie je pravdepodobne svätým grálom experimentov v hudbe AI. Podobne ako v prípade známych generátorov obrázkov AI ako Dall-E alebo Midjourney, nepotrebujete mať ani kúsok hudobného know-how, aby ste vytvorili skladbu, ktorá má melódiu a rytmus.
V máji 2023 si tí, ktorí sa prihlásili do Google AI Test Kitchen, mohli prvýkrát vyskúšať demo. Pozdravuje vás užívateľsky prívetivá webová stránka a niekoľko hlavných pravidiel – elektronických a klasických nástroje fungujú najlepšie a nezabudnite špecifikovať „vibe“ – vytváranie úryvku hudby je nepredstaviteľne ľahké.
Rýchlosť je jednou z mála vecí, ktoré MusicLM skutočne poskytuje, spolu s relatívne vysokou vernosťou vzoriek. Skutočný test však nemal byť meraný iba stopkami. Dokáže MusicLM produkovať skutočnú, počúvateľnú hudbu na základe niekoľkých slov? Nie presne (k tomu sa dostaneme čoskoro).
Ako používať MusicLM v AI Test Kitchen od Google
Používanie MusicLM je jednoduché, môžete sa zapísať do zoznamu čakateľov Testovacia kuchyňa AI od Googlu ak si to chcete dať.
Vo webovej aplikácii uvidíte textové pole, v ktorom môžete zostaviť výzvu z niekoľkých slov do niekoľkých viet popisujúcich druh hudby, ktorú chcete počuť. Ak chcete dosiahnuť najlepšie výsledky, Google vám odporúča „veľmi popisný“ a dodáva, že by ste sa mali snažiť zahrnúť náladu a emócie hudby.
Keď budete pripravení, stlačením klávesu Enter spustite spracovanie. Približne do 30 sekúnd budete mať k dispozícii dva zvukové úryvky, ktoré si môžete vyskúšať. Z týchto dvoch možností máte možnosť udeliť trofej najlepšej vzorke, ktorá sa zhoduje s vašou výzvou, čo zase pomáha Googlu trénovať model a zlepšovať jeho výstup.
Ako znie MusicLM
Ľudia robili hudbu minimálne pred 40 000 rokmi bez definitívnej predstavy, či hudba prišla pred, po alebo súčasne s vývojom jazyka. Takže v niektorých ohľadoch nie je prekvapujúce, že MusicLM úplne nerozlúštila kód tohto prastarého univerzálneho umenia.
Výskumný dokument MusicLM spoločnosti Google navrhol, aby MusicLM mohol generovať hudbu z titulkov patriacich k slávnym umeleckým dielam a nasledovať pokyny, ako je zmena žánru alebo nálady plynulým spôsobom podľa postupnosti rôznych výzvy.
Predtým, ako sme sa dostali k takýmto vysokým zákazkám, sme však zistili, že MusicLM musí najprv prekonať niekoľko zásadných problémov.
Ťažkosti pri dodržiavaní tempa
Najzákladnejšou úlohou každého hudobníka je jednoducho hrať v čase. Inými slovami, držte sa tempa. Prekvapivo to nie je niečo, čo MusicLM dokáže na 100% času.
V skutočnosti, keď sme použili tú istú výzvu 10-krát, čo vytvorilo 20 hudobných skladieb, iba tri boli včas. Zvyšných 17 vzoriek bolo rýchlejších alebo pomalších ako špecifikované tempo, ktoré bolo napísané v "úderoch za minútu", čo je široko používaný termín na opis hudby.
V tomto príklade sme použili výzvu „sólový klasický klavír hraný rýchlosťou 80 úderov za minútu, pokojný a meditatívny“. Pri bližšom počúvaní sa hudba v rámci malej dĺžky ukážky často zrýchlila alebo spomalila.
Hudbe tiež chýbal silný beat a znela, ako keby niekto v polovici skladby udrel play. Či už to bolo úmyselné alebo nie, je ťažké posúdiť, či MusicLM skutočne dokáže skomponovať správny začiatok alebo koniec skladby popri držaní sa rytmu.
Náhodný výber nástroja
Možno sa MusicLM ešte nenaučili hrať v prísnom načasovaní, a tak sme prešli k ďalšiemu bežnému hudobnému parametru. Chceli sme zistiť, či vyhovie našej žiadosti o určité nástroje.
Napísali sme niekoľko rôznych výziev, ktoré obsahovali popisy ako „Sólový syntetizátor“ a „Sólová basgitara“. Iné boli väčšie súbory ako „String quartet“ alebo „Jazz band“. Celkovo to vyzeralo ako šanca 50:50, že dostanete to, o čo ste žiadali.
Jedna teória hovorí, že model spája niektoré nástroje s populárnymi hudobnými žánrami. Vezmite si napríklad výzvu „Sólový syntetizátor, postupnosť akordov. Živý a optimistický“. Namiesto samotného syntetizátorového zvuku vytvoril MusicLM elektronickú skladbu s bicími a basou.
Je možné, že model jednoducho nemá dostatok údajov a dostatočné školenie na pochopenie konkrétnej požiadavky na nástroj.
Vokály sú mimo rovnice
Podľa vtedajších obmedzení by modelka neprodukovala hudbu obsahujúcu vokály. Ožehavé problémy s autorskými právami MusicLM a chybné vokály je pravdepodobným faktorom, prečo sa Google rozhodol hrať bezpečne nastavením tohto obmedzenia.
Po určitom čase experimentovania s MusicLM sme si však uvedomili, že kontrola Googlu nad výstupom modelu nebola práve železná. Je zvláštne, že výzva ako „akustická gitara“ by vytvorila skladbu, ktorá obsahovala v pozadí duchov podobné vokály, ktoré zneli tlmene a vzdialene.
Aj keď to nie je bežný jav, nechá vás to v prvom rade premýšľať o schopnosti MusicLM vytvárať presvedčivé vokály.
So softvérom ako VOCALOID a Synthesizer V, ktorý vedie cestu Technológia vokálnej syntézy s pomocou AI, vynechanie vokálov zo súčasného modelu nás necháva premýšľať, či ešte nie je dosť dobrý na to, aby konkuroval existujúcim technológiám. MusicLM môže mať pred sebou ešte dlhú cestu, kým budú hudobníci spievať chválu.
Budúcnosť hudobných generátorov AI
Aj keď MusicLM posunula generatívnu umelú hudobnú technológiu dopredu, musí sa vrátiť do školy a naučiť sa niekoľko ďalších vecí, kým bude môcť začať praktickú prácu v hudobnom priemysle.
Doteraz bol najlepším pokusom o generatívnu hudbu AI model s názvom JukeboxAI od OpenAI. Nebolo to presne v stave pripravenom na použitie a vykreslenie iba jednej minúty hudby trvalo neskutočných deväť hodín.
Za svoje úsilie ste pravdepodobne získali späť skutočne mimozemsky znejúcu skladbu prešpikovanú zvukovým skreslením a artefaktmi. Na druhej strane, nebudete sa nudiť počúvanie bizarných výtvorov, ktoré Jukebox kúzli.
Vo svetle toho MusicLM urobila niekoľko významných pokrokov smerom k užívateľsky prívetivému hudobnému generátoru AI. Mohli by sme modelu takmer odpustiť jeho náhodné výstupy, keď sa zamyslíte nad tým, aké nesmierne komplikované je generovať hudbu v surovej audio forme.
Po uvedení modelu do prevádzky sa však MusicLM cíti ako polovičný v porovnaní s tým, čo Google zverejnil vo svojom počiatočnom výskumnom dokumente. Málokedy sa generátoru AI obrázkov pomýli imidž Apple, podobne aj hudobný generátor AI by mal mať niekoľko základných vecí, ako je tempo a nástroje.
Google MusicLM nespĺňa očakávania
S technologickými spoločnosťami, ktoré sa predháňajú v konkurencii na fronte AI, má MusicLM pocit, akoby vstúpila do verejných skúšok skôr, ako bola pripravená. Zdá sa, že namiesto toho, aby boli základy správne, model zaujal oveľa vágnejší a subjektívnejší prístup k produkcii hudby.
Google vás môže povzbudiť, aby ste boli vo svojej výzve konkrétni, ale nezvláda dobre tempo a nie je zaručené, že zakaždým dostanete nástroje, o ktoré ste žiadali. MusicLM môže byť zaujímavé a predstavuje dobrú ukážku výkonných pokrokov AI, ale ak je hudba konečným cieľom, má pred sebou ešte dlhú cestu.