Umelá inteligencia nás môže oklamať a pomýliť si vytvorené umenie so skutočnými fotografiami. Prečo sú teda ruky takou veľkou výzvou?
Generátory AI sa pred našimi očami vyvíjajú desivým tempom, no stále majú nedostatky. Vidieť zvláštne detaily na obrázkoch AI je v skutočnosti celkom zábavné. To je dôvod, prečo sa ruky Midjourney stali horúcou témou, problémom bežným v mnohých motoroch.
Poďme si rozobrať, prečo ruky tak veľmi vyzývajú generátory obrázkov AI. Ich programátori už tento problém hodný meme opravujú, no je zaujímavé zamyslieť sa nad tým, ako sa umelá inteligencia učí, nehovoriac o tom, čo jej stojí v ceste.
Prečo ruky generované AI vyvolali rozruch
Každý, kto používa motory AI na vytváranie obrázkov, si mohol všimnúť, že ruky zriedka vychádzajú správne, ale problém sa obrátil, keď sa na Twitteri objavilo množstvo „fotiek“.
Pri bližšom pohľade ich podivné ruky ľudí prezradili ako obrázky vygenerované AI. Skutočnosť, že to bol pokus Midjourney o ruky, urobila situáciu zaujímavejšou.
Jeden z najlepších motorov AI na svete si nedokázal poradiť so zložitosťou ľudských rúk, takže schopnosti Midjourney a jeho konkurentov boli podrobené skúške. Je pravda, že aj DALL-E je náchylný na nereálne prsty a nechty.
Humbuk bol neúmerný vzhľadom na to, že ruky generované AI boli vždy problémom, no mimoriadna pozornosť si vyžiadala vydanie Midjourney v5 na zlepšenie oproti verzii 4.
Nová verzia si dala záležať na vylepšení ručného dizajnu, čo je jasným znamením, že inžinieri AI venovali pozornosť veselému rozruchu a rozhodli sa upgradovať možnosti softvéru.
Ostatné motory sú pomalé, aby nasledovali príklad Midjourney oprava AI art pomocou Photoshopu zostáva neoceniteľnou zručnosťou. Hlavnou prekážkou pre programátorov je, aké komplikované je trénovať umelú inteligenciu na kreslenie presvedčivých rúk.
Prečo generátory obrázkov AI zápasia s rukami?
Motory AI používajú na vytváranie obrázkov generatívne siete protivníkov (GAN) alebo Stable Diffusion. Obe technológie si vyžadujú rozsiahle zdrojové materiály, školenia a spracovateľský výkon na vytvorenie aj tých najzákladnejších umeleckých diel.
Keďže už existujúce obrázky sú základom školenia AI, programátori musia do svojho softvéru vložiť tisíce, ak nie milióny obrázkov. popri výzvach – opakovanie procesu znova a znova, kým motor nepochopí, čo konkrétne slovo označuje a ako to má reprezentovať objekt.
Ale zdrojové obrázky, z ktorých sa AI učí, sú hlavne 2D, kde sú ruky zobrazené v rôznych polohách. Či už rovný alebo stočený, ukazuje päť alebo tri prsty.
Na konci dňa stroj v skutočnosti nerozumie konceptu rúk a obrázky, z ktorých sa učí, nie vždy obsahujú ruky dostatočne jasne alebo konzistentne. To je dôvod, prečo môžu byť ruky Midjourney také škaredé: zmätok AI.
Rovnako platný ako Obavy Elona Muska z vývoja AI Možno sa niektoré časti technológie ešte musia veľa naučiť. A ich prekážky presahujú nedostatočné príklady rúk.
Ďalšie dôvody, prečo sa generátory obrázkov AI pomaly zlepšujú
Pozerajúc sa na Modely Midjourney, v5 ponúka pokročilú koherenciu medzi textovými výzvami a vytvorenými obrázkami, ako aj vyššie rozlíšenie a ďalšie nástroje. Takéto úspechy však nie sú lacné.
Trénovanie AI, aby lepšie zvládala ruky, si vyžaduje lepšie obrázky, najmä v 3D. To znamená, že veľa času a pracovnej sily sa vynakladá na procesy, od získania zdrojových materiálov po zlepšenie kódovania a opakovanie školenia, kým to AI nezvládne.
Dokonca aj vtedy môže softvér robiť chyby v inak ohromujúcich umeleckých dielach. Okrem toho, že je to obrovská a zložitá práca, je to drahé. Takže neočakávajte bezplatné generátory AI textu na obrázok aby sme ešte dosiahli kalibr Midjourney.
Zjednodušene povedané, problém s motormi AI nie je len o neschopnosti týchto počítačových programov úplne pochopiť, ako vyzerajú alebo fungujú ľudské črty, ako sú ruky a nohy. Záleží tiež na tom, čo to stojí, a na prístupe technológie k 3D snímkam a technikám strojového učenia, ktoré môžu generátorom pomôcť realistickejšie pochopiť svet okolo nich.
Generátory AI obrázkov nebudú bojovať večne
Ruky sú zložitým konceptom pre umelú inteligenciu, ako si zabaliť svoju binárnu hlavu, no riešenia tohto problému už fungujú. Midjourney, DALL-E 2 a ďalšie platformy budú nakoniec schopné udržať bizarné prsty na minime, ak nie úplne vykoreniť.
Pokroky v iných oblastiach AI zabezpečujú, že technológia sa neustále vyvíja a jej vývojári sa vždy učia nové spôsoby, ako ju aplikovať a vylepšiť.