Tento rozsiahly jazykový model bol trénovaný na temnom webe na hodnotenie hrozieb kybernetickej bezpečnosti. Tu je to, čo potrebujete vedieť.

Popularita veľkých jazykových modelov (LLM) prudko stúpa a na scénu neustále prichádzajú nové. Tieto modely, ako napríklad ChatGPT, sa zvyčajne trénujú na rôznych internetových zdrojoch vrátane článkov, webových stránok, kníh a sociálnych médií.

V bezprecedentnom kroku vyvinul tím juhokórejských výskumníkov DarkBERT, LLM vyškolený na súboroch údajov prevzatých výlučne z temného webu. Ich cieľom bolo vytvoriť nástroj AI, ktorý prekonáva existujúce jazykové modely a pomáha výskumníkom hrozieb, presadzovaniu práva a odborníkom na kybernetickú bezpečnosť v boji proti kybernetickým hrozbám.

Čo je DarkBERT?

DarkBERT je model kódovača založený na transformátore založený na architektúre RoBERTa. LLM bol vyškolený na miliónoch temných webových stránok vrátane údajov z fór o hackeroch, podvodných webových stránok a iných online zdrojov spojených s nezákonnými aktivitami.

instagram viewer

Termín „tmavý web“ označuje skrytú internetovú sekciu nedostupné cez štandardné webové prehliadače. Podsekcia je známa tým, že obsahuje anonymné webové stránky a trhoviská neslávne známe pre nezákonné aktivity, ako je obchodovanie s ukradnutými údajmi, drogami a zbraňami.

Trénovať DarkBERT výskumníci získali prístup na temný web cez sieť Tor a zozbierali nespracované údaje. Tieto údaje starostlivo filtrovali pomocou techník, ako je deduplikácia, vyváženie kategórií a predbežné spracovanie vytvoriť prepracovanú databázu tmavého webu, ktorá sa potom v priebehu približne 15 dní odoslala do RoBERTA, aby sa vytvorila DarkBERT.

Možné využitie DarkBERT v kybernetickej bezpečnosti

DarkBERT má pozoruhodné znalosti jazyka kyberzločincov a vyniká v rozpoznávaní konkrétnych potenciálnych hrozieb. Dokáže skúmať temný web a úspešne identifikovať a označiť hrozby kybernetickej bezpečnosti, ako sú úniky údajov a ransomvér, čo z neho robí potenciálne užitočný nástroj na boj proti kybernetickým hrozbám.

Na vyhodnotenie účinnosti DarkBERT ho výskumníci porovnali s dvoma renomovanými modelmi NLP, BERT a RoBERTa pri hodnotení ich výkonu v troch kľúčových prípadoch použitia súvisiacich s kybernetickou bezpečnosťou, výskum, zverejnené dňa arxiv.org, označuje.

1. Monitorujte tmavé webové fóra pre potenciálne škodlivé vlákna

Monitorovanie temných webových fór, ktoré sa bežne používajú na výmenu nezákonných informácií, je kľúčové na identifikáciu potenciálne nebezpečných vlákien. Manuálna kontrola týchto údajov však môže byť časovo náročná, vďaka čomu je automatizácia procesu výhodná pre bezpečnostných expertov.

Výskumníci sa zamerali na potenciálne škodlivé aktivity na hackerských fórach a navrhli pokyny pre anotácie pre vlákna, ktoré si zaslúžia pozornosť, vrátane zdieľania dôverných údajov a distribúcie kritického malvéru alebo zraniteľnosti.

DarkBERT prekonal iné jazykové modely, pokiaľ ide o presnosť, zapamätanie a skóre F1, čím sa ukázal ako najlepšia voľba na identifikáciu pozoruhodných vlákien na temnom webe.

2. Rozpoznajte stránky, ktoré hosťujú dôverné informácie

Hackeri a skupiny ransomvéru využívajú temný web na vytváranie únikových stránok, kde zverejňujú dôverné údaje ukradnuté organizáciám, ktoré odmietajú splniť požiadavky na výkupné. Iní kyberzločinci jednoducho nahrávajú uniknuté citlivé údaje, ako sú heslá a finančné informácie, na temný web s úmyslom ich predať.

Vedci vo svojej štúdii zbierali údaje z notoricky známe ransomvérové ​​skupiny a analyzovali stránky s únikom ransomvéru, ktoré zverejňujú súkromné ​​údaje organizácií. DarkBERT prekonal iné jazykové modely pri identifikácii a klasifikácii takýchto stránok a ukázal svoje chápanie jazyka používaného na podzemných hackerských fórach na temnom webe.

DarkBERT využíva funkciu výplňovej masky, ktorá je neoddeliteľnou súčasťou jazykových modelov rodiny BERT, na presnú identifikáciu kľúčových slov spojených s nelegálnymi aktivitami vrátane predaja drog na temnom webe.

Keď bolo slovo „MDMA“ zamaskované na stránke predaja drog, DarkBERT generoval slová súvisiace s drogami, zatiaľ čo iné modely navrhovali všeobecné slová a výrazy nesúvisiace s drogami, ako sú rôzne profesie.

Schopnosť DarkBERT identifikovať kľúčové slová súvisiace s nezákonnými aktivitami môže byť cenná pri sledovaní a riešení vznikajúcich kybernetických hrozieb.

Je DarkBERT prístupný širokej verejnosti?

DarkBERT je momentálne nedostupný pre verejnosť, no výskumníci sú otvorení žiadostiam o jeho použitie na akademické účely.

Využite silu AI na detekciu a prevenciu hrozieb

DarkBERT bol vopred vyškolený na údaje z tmavého webu a prekonáva existujúce jazykové modely vo viacerých prípadoch použitia v oblasti kybernetickej bezpečnosti, čím sa stáva kľúčovým nástrojom pre pokrok vo výskume temného webu.

Umelá inteligencia trénovaná na temnom webe má potenciál na využitie pri rôznych úlohách kybernetickej bezpečnosti vrátane identifikácie webových stránok, ktoré predávajú úniky. dôverné údaje, monitorovanie temných webových fór s cieľom odhaliť nezákonné zdieľanie informácií a identifikovať kľúčové slová súvisiace s kybernetickou sieťou vyhrážky.

Vždy by ste však mali pamätať na to, že podobne ako ostatné LLM, aj DarkBERT je nedokončená práca a jej výkon sa dá zlepšovať neustálym školením a dolaďovaním.