Len pred niekoľkými mesiacmi, ak ste chceli vytvoriť obrázok niečoho, museli ste byť schopní načrtnúť, maľovať alebo použiť niektorý z nástrojov na photoshoping, o ktorých iní hovoria. Po roku 2022 sa však všetko zmenilo, a to všetko vďaka AI – áno, ako v prípade „umelej inteligencie“.
Namiesto snahy ovládnuť svet dokážu umelecky naladené nástroje AI premeniť čokoľvek, čo im opíšete, na obraz.
Poďte s nami, keď vstúpime do sveta vizualizácie textu poháňaného umelou inteligenciou, a uvidíte, ako môžete pomocou takýchto nástrojov previesť svoje myšlienky na skutočné obrázky jednoduchým zadaním toho, čo máte na mysli.
Dall-E: Umelecká stránka GPT-3 OpenAI
Prvé nástroje poháňané AI, ktoré sa stali populárnymi, boli založené na OpenAI GPT-3. Jedným z dôvodov bola otvorenosť projektu voči externému prístupu, čo viedlo k niektorým návrhom, že GPT-3 je budúcnosťou tvorivej práce.
Dnes môžete použiť oficiálne nástroje, ktoré nájdete na Beta stránka OpenAI alebo riešenia tretích strán, ktoré využívajú jeho jazykové superschopnosti. Môžete napríklad požiadať GPT-3, aby prišiel s návrhom príspevku, odpovedal na jednoduché otázky alebo dokonca upravil alebo preložil nejaký text.
V roku 2022 OpenAI odhalilo, že GPT-3 bol rovnako dobrý pri vytváraní obrázkov. Projekt DALL-E, hra s filmom WALL-E od Pixar a menom Dali, nepoužíva GPT-3 na prácu s textom, ale ako nástroj na vytváranie obrázkov.
Rovnako ako v prípade GPT-3 a textu, DALL-E nie je v skutočnosti kreatívny génius, ktorý zhmotňuje obrázky z ničoho. Namiesto toho bol „trénovaný“ na miliónoch obrázkov, ktoré už existujú online. Jeho schopnosti AI spočívajú v analýze týchto obrázkov, preberaní prvkov z nich, ladení, morfovaní, úpravách a nakoniec ich kombinovaní do nových snímok.
To je aspoň zjednodušená verzia toho, čo sa deje na pozadí. Väčšinu ľudí bude zaujímať len to, čo vidia pred sebou, a to je textové pole, do ktorého môžete niečo napísať a uvidíte, že sa to po niekoľkých minútach zmení na obrázok.
Odpoveď spoločnosti Google Imagen
Google je jedným z troch najlepších „hráčov“ vo výskume AI. Napriek tomu ich pokrok nie je ľahko postrehnuteľný, ani ich implementácia do produktov nie je taká prístupná ako ponuky OpenAI.
Jedna z prvých široko dostupných implementácií Google AI bola v Dokumentoch Google a Gmaile vo forme inteligentnejšieho automatického dopĺňania a návrhov, známych ako inteligentné písanie. Nebudeme sa ponárať do podrobností, keďže sme sa už predtým venovali Inteligentné písanie (a ako ho môžete použiť).
Keď sú tieto funkcie aktívne, webové aplikácie Google porovnávajú, čo používateľ píše, s tým, čo v minulosti napísali milióny iných. Potom navrhne, čo napísali neskôr.
Je to dôkaz, že napriek tomu, čomu radi veríme, nie sme až takí odlišní. Ak 99 zo 100 ľudí napíše „neskôr“ po „uvidíme sa“, pravdepodobne by sme v písaní pokračovali aj my.
Všetci sme používali nejakú formu automatického dopĺňania, dokonca aj z čias „dumbphone“ prediktívneho textového systému T9. Preto sa nástroje AI od Googlu nezdali také inteligentné ako GPT-3 od OpenAI. Necítili sa pri používaní o toľko viac ako lepší systém T9 vylepšený pre 21. storočie. A aj preto bolo odhalenie Imagenu tak trochu šokom.
Podobne ako DALL-E na steroidoch, Imagen je nástroj na vizualizáciu textu. Na základe toho, čo je dnes k dispozícii, môže Imagen vytvárať „čistejšie“ a živšie snímky a zároveň vedieť, ako sa vysporiadať s pokročilými funkciami, ako je difúzia a transparentnosť.
Bohužiaľ, v čase písania tohto článku zostáva prístup k Imagen obmedzený, takže sme ho nemohli vyskúšať.
DALL-E Mini and Friends: Open for Business
Zatiaľ nemôžete voľne pristupovať k DALL-E a Imagen. Napriek tomu je už dostupných veľa alternatív, ak sa chcete poblázniť s generovaním textových obrázkov pomocou AI.
Majte na pamäti, že toto sú prvé dni a výsledky alebo používateľská skúsenosť, ktorú ponúkajú, nemusia byť ani zďaleka optimálne, stále stojí za to pozrieť sa na niektoré z nasledujúcich.
Vytváranie mémov s Dall-E Mini
Vďaka kombinácii viac ako adekvátnych výsledkov a užívateľsky prívetivému rozhraniu, ale čo je dôležitejšie, jeho širokej dostupnosti sa DALL-E mini stal jedným z najpopulárnejších AI textových vizualizérov.
Výsledky DALL-E mini nie sú ani zďaleka dokonalé, ale niekedy môžu byť abstraktnejšie, ako bolo zamýšľané.
Inokedy sa môže stať, že sa vám nepodarí vytvoriť to, čo ste mali na mysli, ale môže sa to priblížiť.
Po explózii popularity ho tvorcovia DALL-E mini presťahovali do nového domova pod novou značkou. Teraz môžete nájsť najnovšiu verziu DALL-E mini ako Crayon na svojej vlastnej stránke.
Používanie Craiyonu je dnes také jednoduché ako vyhľadávanie online existujúceho obrázka. Môžete navštíviť jej stránku, do textového poľa napísať popis svojho obrázka a stlačiť Enter. Po chvíli uvidíte výsledky na obrazovke.
Zarážajúce je, ako dobre Craiyon a podobné nástroje dokážu napodobňovať vizuálne štýly. Napríklad sme ho požiadali, aby vykúzlil obrázky šteniatka na skateboarde:
Potom sme použili presnú frázu, ale pridali sme za ňu „štýl Pixar“. Po chvíli Craiyon ukázal mriežku viac „kreslených“ obrázkov, bližšie k tomu, čo vnímame ako grafiku Pixar s ray-tracovaním v ich milovaných filmoch.
Craiyon nám dal ešte lepšie výsledky, keď sme v tej istej výzve nahradili "Pixar style" za "anime style".
Anime je vo svojom vzhľade viac štylizované ako realistickejšie snímky Pixaru, čo, ako sa zdá, pomohlo Craiyon vytvoriť niekoľko obrázkov takmer pripravených na použitie.
Bláznenie s latentnou difúziou
Model latentnej difúzie trénovaný na súbore údajov LAION-400M je ďalším zaujímavým textovým vizualizérom AI. Zložitejšie je to však aj pri jeho používaní. Musíte ho spustiť online vo virtuálnom stroji a hrať sa s jeho rôznymi parametrami namiesto jednoduchého písania do textového poľa. Napriek tomu je to jednoduchšie, ako sa zdá.
- Navštíviť Google Latent Diffusion colab priestor to je momentálne jeho domov.
- Prejdite trochu nižšie a všimnite si Prompt pole pod Parametre. Nahraďte predvolenú výzvu tým, čo chcete, aby obrázok zobrazoval.
- Vyberte si Spustiť všetko z Beh programu menu alebo stlačte CTRL + F9.
- Ak chcete mať možnosť exportovať vytvorené obrázky priamo z nástroja, odpovedzte kladne na otázku, či ho chcete prepojiť s vaším účtom na Disku Google. Nástroju chvíľu trvá, kým dokončí svoju konfiguráciu a počas procesu potrebuje stiahnuť nejaké súbory.
Zvýšenie hodnôt pre Kroky, Iterácie, a Samples_in_parallel, môže viesť k podrobnejším výsledkom. Tento nástroj je však mimoriadne náročný na zdroje na serveroch Google. V dôsledku toho môže dôjsť k zlyhaniu, ak tieto hodnoty príliš zvýšite, alebo sa proces vytvárania konkrétneho obrázka skomplikuje, ako sa očakávalo.
Zaujímavé alternatívy
Strávili sme značné množstvo času testovaním DALL-E mini a Latent Diffusion. Naša vedecká metóda pozostávala z dvoch odlišných častí. Najprv sme museli vymyslieť koncepty, ktoré by sa dali presne opísať ako blbosti. Potom požiadajte týchto vizualizérov AI, aby ich premenili na obrázky. Častejšie, ako sa očakávalo, sa im to podarilo a priblížili sa k všeobecnému nastaveniu, ktoré sme si predstavovali.
Vyskúšali sme aj niektoré dostupné alternatívy tohto článku. Stále čakáme na prístup k ostatným. Niektoré z tých, ktoré sa oplatí vyskúšať, sú (v žiadnom konkrétnom poradí):
- Stredná cesta
- MindsEye beta
- StarryAI
- Sen
- Disco Difúzia
Nahradí umenie generované AI vizuálne umenie?
Množstvo a neustále rastúca popularita nástrojov poháňaných AI na vytváranie obrázkov vedie mnohých k záveru, že vizuálne umenie čoskoro zomrie. Aký má zmysel investovať čas a energiu, aby ste sa naučili kresliť alebo používať zložitý softvér na vizualizáciu vecí, keď to AI dokáže rýchlejšie (a čoskoro lepšie) ako vy?
Ak ste si všimli, všetky tieto nástroje sú „vycvičené na množinách údajov“. V jednoduchej angličtine to znamená, že robia to, čo robia, vďaka tomu, že ľudia už to isté urobili predtým.
To je náznak, prečo tieto nástroje nemôžu nahradiť ľudské umenie, kreativitu a vynaliezavosť. Sú to mimikry, inteligentné replikátory. Bez originálov vyrobených ľuďmi, na ktorých sú trénovaní, by neboli schopní produkovať žiadny výstup.
Napriek tomu je to teraz a priznávame, že nevieme, čo prinesie budúcnosť. Výtvarní umelci môžu zatiaľ pokojne spať. Rýchlosťou, ktorou sa AI vyvíja, sa však mnohí špecialisti na túto tému zhodujú, že nezáleží na tom, či niekedy skutočne nahradí prácu ľudí, ako ste vy. Ide len o to kedy.
Ale hej, to nie je všetko len záhuba a pochmúrnosť. Zatiaľ čo sa Skynet pripravuje na prijatie našej práce, aspoň si môžeme zlepšiť náladu jednoduchým vytváraním obrázkov šteniatok na skateboardoch!