Aké sú nepriaznivé útoky na modely AI a ako ich môžete zastaviť?

Modely AI sú len také dobré, aké dobré sú údaje, ktoré do nich vstupujú. Vďaka tomu sú tieto údaje potenciálnym cieľom útokov.

Pokroky v umelej inteligencii mali významný vplyv na rôzne oblasti. To vyvolalo u mnohých technologických nadšencov dôvod na obavy. Keď sa tieto technológie rozšíria do rôznych aplikácií, môžu viesť k zvýšeniu počtu nepriateľských útokov.

Čo sú nepriateľské útoky v umelej inteligencii?

Nepriateľské útoky využívajú špecifikácie a zraniteľné miesta v rámci modelov AI. Poškodzujú údaje, z ktorých sa modely AI naučili, a spôsobujú, že tieto modely generujú nepresné výstupy.

Predstavte si, že vtipkár zmení scrabble dlaždice usporiadané ako ananás, aby sa zmenili na „applepine“. Je to podobné tomu, čo sa deje pri protistranných útokoch.

Pred niekoľkými rokmi bolo získanie niekoľkých nesprávnych odpovedí alebo výstupov z modelu AI normou. Teraz je to naopak, pretože nepresnosti sa stali výnimkou a používatelia AI očakávali takmer dokonalé výsledky.

Keď sa tieto modely AI aplikujú na scenáre v reálnom svete, nepresnosti môžu byť fatálne, takže útoky protivníkov sú veľmi nebezpečné. Napríklad nálepky na dopravných značkách môžu zmiasť autonómne samoriadiace auto a spôsobiť, že sa dostane do premávky alebo priamo na prekážku.

instagram viewer

Typy nepriateľských útokov

Existujú rôzne formy nepriateľských útokov. S zvýšená integrácia AI do každodenných aplikácií, tieto útoky sa pravdepodobne zhoršia a budú zložitejšie.

Napriek tomu môžeme nepriateľské útoky zhruba klasifikovať do dvoch typov podľa toho, koľko toho aktér hrozby vie o modeli AI.

1. Útoky bielej skrinky

In útoky bielej skrinky, aktéri hrozieb majú úplné znalosti o vnútornom fungovaní modelu AI. Poznajú jeho špecifikácie, tréningové dáta, techniky spracovania a parametre. Tieto znalosti im umožňujú zostaviť nepriateľský útok špeciálne pre model.

Prvým krokom pri útoku na bielu skrinku je zmena pôvodných tréningových údajov a ich poškodenie v najmenšom možnom rozsahu. Upravené údaje budú stále veľmi podobné pôvodným, ale dostatočne významné na to, aby model AI poskytoval nepresné výsledky.

To nie je všetko. Po útoku aktér hrozby vyhodnotí účinnosť modelu tým, že mu poskytne príklady protivníka –skreslené vstupy navrhnuté tak, aby spôsobili chyby modelu—a analyzuje výstup. Čím nepresnejší výsledok, tým úspešnejší je útok.

2. Útoky čiernej skrinky

Na rozdiel od útokov v bielej skrinke, kde aktér hrozby vie o vnútornom fungovaní modelu AI, o páchateľoch útoky čiernej skrinky neviem ako ten model funguje. Jednoducho sledujú model zo slepého uhla, sledujú jeho vstupné a výstupné hodnoty.

Prvým krokom v útoku čiernej skrinky je výber vstupného cieľa, ktorý chce model AI klasifikovať. Aktér hrozby potom vytvorí škodlivú verziu vstupu pridaním starostlivo vytvoreného šumu, rušenia údajov neviditeľné pre ľudské oko, ale schopné spôsobiť model AI porucha.

Škodlivá verzia sa odošle do modelu a sleduje sa výstup. Výsledky dané modelom pomáhajú aktérovi hrozby pokračovať v úprave verzie, kým si nie sú dostatočne istí, že by to nesprávne klasifikovalo akékoľvek údaje, ktoré sú do nej vložené.

Techniky používané pri nepriateľských útokoch

Škodlivé entity môžu použiť rôzne techniky na uskutočnenie nepriateľských útokov. Tu sú niektoré z týchto techník.

1. Otrava

Útočníci môžu manipulovať (otráviť) malú časť vstupných údajov modelu AI, aby ohrozili jeho tréningové súbory údajov a presnosť.

Existuje niekoľko foriem otravy. Jeden z bežných sa nazýva otrava zadnými vrátkami, kde je ovplyvnených veľmi málo tréningových údajov. Model AI naďalej poskytuje vysoko presné výsledky, kým nie je „aktivovaný“ na poruchu pri kontakte so špecifickými spúšťačmi.

2. Vyhýbanie sa

Táto technika je skôr smrteľná, pretože sa vyhýba detekcii tým, že ide po bezpečnostnom systéme AI.

Väčšina modelov AI je vybavená systémami detekcie anomálií. Techniky únikov využívajú príklady protivníka, ktoré idú priamo po týchto systémoch.

Táto technika môže byť obzvlášť nebezpečná pre klinické systémy, ako sú autonómne autá alebo modely lekárskej diagnostiky. Toto sú oblasti, v ktorých môžu mať nepresnosti vážne následky.

3. Prenosnosť

Aktéri hrozieb používajúci túto techniku nepotrebujú predchádzajúce znalosti o parametroch modelu AI. Používajú protichodné útoky, ktoré boli v minulosti úspešné proti iným verziám modelu.

Napríklad, ak nepriateľský útok spôsobí, že model klasifikátora obrázkov si pomýli korytnačku s puškou, presný útok by mohol spôsobiť, že iné modely klasifikátora obrázkov urobia rovnakú chybu. Ostatné modely mohli byť trénované na inom súbore údajov a dokonca môžu mať inú architektúru, ale stále sa môžu stať obeťou útoku.

4. Náhradné materstvo

Namiesto sledovania bezpečnostných systémov modelu pomocou únikových techník alebo predtým úspešných útokov by aktér hrozby mohol použiť náhradný model.

Pomocou tejto techniky vytvára aktér hrozby identickú verziu cieľového modelu, náhradný model. Výsledky, parametre a správanie náhrady musia byť totožné s pôvodným modelom, ktorý bol skopírovaný.

Náhradník bude teraz vystavený rôznym útokom protivníka, kým jeden z nich nespôsobí nepresný výsledok alebo vykoná nesprávnu klasifikáciu. Potom sa tento útok použije na pôvodnú cieľovú AI.

Ako zastaviť nepriateľské útoky

Obrana proti nepriateľským útokom môže byť zložitá a časovo náročná, keďže aktéri hrozieb využívajú rôzne formy a techniky. Nasledujúce kroky však môžu zabrániť a zastaviť nepriateľské útoky.

1. Adversarial Training

Najúčinnejším krokom, ktorý môže zabrániť nepriateľským útokom, je tréning protivníkov, tréning modelov a strojov AI pomocou príkladov protivníka. To zlepšuje robustnosť modelu a umožňuje, aby bol odolný voči najmenším vstupným poruchám.

2. Pravidelný audit

Je potrebné pravidelne kontrolovať slabé miesta v systéme detekcie anomálií modelu AI. Zahŕňa to zámerné zásobovanie modelu príkladmi protivníka a sledovanie správania modelu podľa škodlivého vstupu.

3. Dezinfekcia údajov

Táto metóda zahŕňa kontrolu škodlivých vstupov vložených do modelu. Po ich identifikácii musia byť okamžite odstránené.

Tieto údaje možno identifikovať pomocou overenia vstupu, ktoré zahŕňa kontrolu údajov na vzory alebo podpisy predtým známych príkladov protivníka.

4. Aktualizácie zabezpečenia

S bezpečnostnými aktualizáciami a záplatami by sa len ťažko niečo pokazilo. Viacvrstvové zabezpečenie, ako sú brány firewall, programy na ochranu pred škodlivým softvérom atď systémy detekcie a prevencie narušenia môže pomôcť blokovať vonkajšie rušenie od aktérov hrozieb, ktorí chcú otráviť model AI.

Nepriateľské útoky môžu byť dôstojným protivníkom

Koncept adversarial útokov predstavuje problém pre pokročilé učenie a strojové učenie.

Výsledkom je, že modely AI majú byť vyzbrojené obrannými opatreniami, ako je tréning protivníkov, pravidelný audit, dezinfekcia údajov a príslušné bezpečnostné aktualizácie.

About Technology - denizatm.com