Deepfake hudba napodobňuje štýl konkrétneho umelca vrátane jeho hlasu. Ako je možné, že to znie tak reálne?

Po dlhú dobu sa hudba dokázala vyhýbať svetu deepfakes, pretože bolo jednoducho príliš komplikované syntetizovať niečí hlas. To všetko sa zmenilo s pokrokom v technológii AI. Výsledkom sú hlasové klony slávnych umelcov, ktoré možno použiť na výrobu nových vokálnych skladieb.

S nástrojmi AI, ktoré sa stávajú prístupnejšími pre priemerných ľudí, je deepfake hudba čoraz väčším problémom. Tu je to, čo to je a ako sa to vytvára.

Evolúcia Deepfake hudby

Keď počujete svojho obľúbeného umelca spievať na Spotify alebo YouTube, sotva si pomyslíte, že by to mohlo byť falošné, ale vďaka pokrokom AI sa to stalo skutočnosťou. Okrem falošných obrázkov a videí existuje aj hlboko falošná hudba.

Nástroje AI dokážu verne reprodukovať spev človeka trénovaním modelu AI na zvukových vzorkách ich hlasu. Vytvorené fanúšikmi umelca alebo fanúšikmi technológie AI sa viac ľudí pokúša vytvoriť vokálnych dvojníkov.

instagram viewer

Ľudia sa snažili syntetizovať hlas pomocou počítača už roky, siahajúc až do roku 1961, keď bol IBM 7094 prvým počítačom, ktorý spieval. Môžete počuť počítačom generovaný hlas spievajúci Daisy Bell v klipe na YouTube a skúste si predstaviť, aký úžasný bol tento moment.

Rýchly posun vpred do 21. storočia a technológia AI zlepšila kvalitu syntetizovaného hlasu a umožnil nám robiť veci, ktoré väčšina z nás doteraz nepovažovala za možné, ako napríklad klonovanie hlasov ľudí.

Stačí sa pozrieť na tento klip, v ktorom Roberto Nickson premieňa svoj hlas na umelca a rappera Kanye Westa. Pozeranie videa je neuveriteľné, skutočne to znie ako Kanye, ale je to tiež nepríjemné. Bez prílišného premýšľania o tom, ako by umelec mohol myslieť alebo cítiť, a bez povolenia by to mohlo byť vnímané ako privlastňovanie si niečieho hlasu.

Na rozdiel od počítačového stvárnenia Daisy Bell je hlasové klonovanie AI schopné reprodukovať presnú podobu niečí hlas, ktorý zahŕňa všetky jemné rozdiely v zafarbení, ktoré nám pomáhajú identifikovať niečí jedinečný vokál profilu. Nelicencovaná a vykonaná bez povolenia má však deepfake hudba niekoľko vážnych problémov, ku ktorým sa dostaneme neskôr.

Ako vznikajú piesne Deepfake

Na vytváranie hlbokých falošných skladieb sa používajú rôzne metódy, ale mnohé z nich využívajú technológiu AI. Open-source projekty ako Projekt SoftVC VITS Singing Voice Conversion na GitHub, napríklad vyvinuli model AI, ktorý robí to, čo hovorí vo svojom názve: konvertuje zvukovú vzorku na spev.

Tento model vezme existujúci zvukový súbor niekoho, kto spieva, a prevedie ho na hlas niekoho iného. Veci ako texty a rytmus pôvodného hlasu sa zachovajú, ale tón, zafarbenie a osobné hlasové kvality sa prevedú na hlas špecifikovaný súborom údajov o tréningu.

Majte na pamäti, že ostatné časti skladby môžu byť stále vyrábané ručne, napríklad vytváranie rytmov a melódií v rovnakom štýle a žánri ako pôvodný interpret.

Na vytvorenie hlbokého falošného hlasu Kanye Westa sa do modelu SoftVC VITS musel vložiť súbor údajov tretej strany, ktorý by obsahoval vzorky skutočného Kanyeho hlasu. Súbor obsahujúci súbor údajov bol medzitým autorom odstránený, čo nie je prekvapujúce vzhľadom na nejasné právne územie, ktoré môže prísť s nepovolenými súbormi údajov.

Aj keď sa nezmenila na komerčnú aplikáciu, môžete nájsť verziu Model SoftVC VITS na Google Collab ktorá je užívateľsky príjemnejšia.

Kým sa nezavedú etické a právne hranice, je možné, že viac ľahko použiteľných aplikácií na klonovanie hlasu vyskakovacie – príliš sa nelíši od aplikácie Drayk.it, ktorá zmenila textový popis na skladby v štýle interpreta Drake. Neskôr bola vypnutá.

Niektoré ďalšie nástroje, ktoré sa používajú na vytváranie deepfake hudby, zahŕňajú veľké jazykové modely, ako napr ChatGPT, pomocou ktorého sa dajú písať texty v štýle známeho umelca; a Jukebox OpenAI a MusicLM od Google, čo sú generatívne modely AI, ktoré dokážu vytvárať hudbu v surovej zvukovej forme úplne od začiatku.

Počuješ ten rozdiel?

Skladba vytvorená anonymným používateľom s názvom Ghostwriter sa stala virálnou na TikTok v apríli 2023, v nemalej miere preto, že obsahovala texty spievané umelcami Drake a The Weeknd. Samozrejme, nešlo o skutočné hlasy umelcov, ale o falošné.

Keby vokály neboli takou dobrou kópiou originálu, možno by to nebol hit. S trochou rýpania by ste mohli celkom rýchlo zistiť, či to bola skutočná dohoda alebo nie, ale iba pomocou uší ste mohli len hádať, či je to autentické.

Ak chceš identifikovať obrázok vygenerovaný AI existuje aspoň niekoľko vizuálnych aberácií, ktoré by ste mohli hľadať. Pokiaľ ide o zvuk, znaky ako zvuk s nízkou vernosťou alebo chyby v skladbe veľa neznamenajú, pretože ide o kreatívne možnosti, ktoré sa pri hudobnej produkcii neustále používajú.

Čo je ešte zaujímavejšie, mnohým ľuďom sa pieseň skutočne páči, aj keď zistili, že to neboli skutočné hlasy Drakea alebo The Weeknda. Obdivovatelia poukázali na to, že nie všetko bolo jednoducho generované pomocou AI a že do písania textov, skladania beatov a zostavovania celej veci sa dala skutočná zručnosť a práca.

Skladba sa dostala na Spotify a YouTube predtým, ako bola stiahnutá v nasledujúcich dňoch, ale nie skôr, ako si ju fanúšikovia stiahli ako mp3. Stále môžete nájsť kópie piesne online, ak vyhľadáte „Heart On My Sleeve, Drake ft. Víkend".

Všimnúť si rozdiel medzi vokálnymi klonmi vytvorenými AI a skutočným ľudským hlasom bude čoskoro takmer nemožné. S ohľadom na to sa ľudia pýtajú, či je to v prvom rade dobré využitie technológie AI, alebo dokonca jej legálne použitie.

Problémy s Deepfake Music

Na jednej strane ľudia radi počúvajú mashupy svojich obľúbených interpretov vytvorené fanúšikmi a rešpektujú kreativitu, vďaka ktorej sa to stáva skutočnosťou. Schopnosť mať vokálne klony sa však v prvom rade spolieha na súbory údajov, ktoré môžu alebo nemusia byť autorizované.

Bez povolenia sa vzorky hlasu osoby zhromažďujú do súboru údajov, ktorý sa potom používa na trénovanie modelu konverzie hlasu AI. Je to podobné ako problém, ktorému čelí umelcov, ktorí chcú odstrániť svoje obrázky z tréningových dátových súborov ktoré sa používajú na trénovanie generátorov obrázkov AI ako Dall-E alebo Midjourney.

Autorský zákon nie je celkom pripravený zaoberať sa hlboko falošnou hudbou. V roku 2020 sa umelcovi Jay-Zovi nepodarilo prinútiť YouTube, aby odstránil zvuk, ktorý vytvára umelá inteligencia a rapuje z monológu Williama Shakespeara „Byť či nebyť“.

Keď je na Spotify alebo YouTube nahraná hlboko falošná pieseň, je tu tiež otázka, kto zarába peniaze. Mali by ste byť schopní zarobiť peniaze na skladbe, ktorá takmer presne kopíruje hlas niekoho iného?

Holly Herndon je jedna umelkyňa, ktorá sa pokúsila vytvoriť systém pre ľudí, ktorí by ju kompenzovali výmenou za použitie jej hlasového modelu na vytvorenie originálneho diela. Zatiaľ čo iní umelci ako Nick Cave áno vystúpil proti AI, píše:

Piesne vznikajú z utrpenia, čím myslím, že sú založené na zložitom, vnútornom ľudskom boji o stvorenie, a pokiaľ viem, algoritmy necítia.

niekedy, Textu generovanému AI môže chýbať kreativita celkovo sú však stále zverejnené online. Umelá inteligencia by mohla mať za následok veľa zlej hudby, do ktorej bolo vynaložené veľmi málo úsilia.

Nájdenie rovnováhy medzi hudbou a AI

Deepfake hudba sa vytvára pomocou nástrojov AI a modelov AI, ktoré boli trénované na neautorizovaných súboroch údajov. Niektoré modely sú s otvoreným zdrojom a sú voľne prístupné, zatiaľ čo iné sa pokúšali zabaliť ich do užívateľsky príjemnej aplikácie.

Keďže čoraz viac ľudí dostáva do rúk deepfake hudobné modely alebo aplikácie, stojí za to zamyslieť sa nad vplyvom na umelca. Získanie súhlasu na tréningové súbory údajov a kompenzácia pre umelca sú len niektoré z problémov, ktoré sa vynárajú nad hudobnou technológiou AI.