Extrakcia údajov je veľkou súčasťou práce na nových a inovatívnych projektoch. Ako však získate do rúk veľké dáta z celého internetu?
Ručný zber údajov neprichádza do úvahy. Je to príliš časovo náročné a neprináša presné ani komplexné výsledky. Ale ktorá cesta medzi špecializovaným softvérom na škrabanie webu a vyhradeným rozhraním API webovej stránky zaisťuje najlepšiu kvalitu údajov bez obetovania integrity a morálky?
Čo je zber webových údajov
Zhromažďovanie údajov je proces získavania verejne dostupných údajov priamo z webových stránok online. Namiesto toho, aby sa spoliehali iba na oficiálne zdroje informácií, ako sú predchádzajúce štúdie a prieskumy, ktoré vykonal zhromažďovanie údajov vám umožňuje prevziať zber údajov do vlastných ruky.
Všetko, čo potrebujete, je webová stránka, ktorá verejne ponúka požadovaný typ údajov, nástroj na ich extrahovanie a databázu na ich uloženie.
Prvý a posledný krok sú dosť jednoduché. V skutočnosti si môžete prostredníctvom Google vybrať náhodný web a uložiť svoje údaje do tabuľky programu Excel. Extrahovanie údajov je miesto, kde je všetko zložité.
Dodržiavanie zákonnosti a etiky
Z hľadiska zákonnosti, pokiaľ sa nevyberiete z čiernych klobúkov a nedostanete sa k údajom alebo porušíte zásady ochrany osobných údajov na webe, máte jasno. Mali by ste sa tiež vyhnúť tomu, aby ste so zbieranými údajmi robili čokoľvek nezákonné, ako sú neoprávnené marketingové kampane a škodlivé aplikácie.
Zber etických údajov je o niečo komplikovanejšia záležitosť. V prvom rade by ste mali rešpektovať práva vlastníka webových stránok na ich údaje. Ak majú v niektorých alebo vo všetkých častiach svojich webových stránok štandardy vylúčenia robotov, vyhnite sa tomu.
Znamená to, že nechcú, aby niekto škrabal ich údaje bez výslovného povolenia, aj keď sú verejne dostupné. Okrem toho by ste sa mali vyhýbať sťahovaniu príliš veľkého množstva údajov naraz, pretože by mohlo dôjsť k zlyhaniu serverov webových stránok a mohli by ste byť označený ako DDoS útok.
Web škrabanie je tak blízko, ako sa dá vziať záležitosti súvisiace so zberom údajov do vlastných rúk. Sú to najprispôsobiteľnejšie možnosti a robia proces extrakcie údajov jednoduchým a užívateľsky prívetivým, pričom vám poskytujú neobmedzený prístup k celému množstvu dostupných údajov webových stránok.
Nástroje na škrabanie webualebo webové škrabky sú softvér vyvinutý na extrakciu údajov. Často sa dodávajú v programovacích jazykoch priateľských k údajom, ako sú Python, Ruby, PHP a Node.js.
Webové škrabky sa automaticky načítajú a prečítajú celý web. Tak budú mať nielen prístup k údajom na úrovni povrchu, ale môžu tiež čítať kód HTML webovej stránky, ako aj prvky CSS a Javascript.
Môžete nastaviť svoju škrabku na zhromažďovanie konkrétneho typu údajov z viacerých webových stránok alebo jej dať pokyn, aby čítal a duplikoval všetky údaje, ktoré nie sú šifrované alebo chránené súborom Robot.txt.
Webové škrabky pracujú prostredníctvom serverov proxy, aby sa vyhli blokovaniu bezpečnosťou webových stránok a technológiou proti spamu a robotom. Oni používajú proxy servery skryť svoju identitu a zamaskovať svoju IP adresu tak, aby vyzerala ako bežná návštevnosť používateľov.
Všimnite si však, že aby ste boli pri zoškrabávaní úplne skrytí, musíte nastaviť nástroj na extrahovanie údajov oveľa pomalšou rýchlosťou, ktorá zodpovedá rýchlosti ľudského používateľa.
Jednoduchosť použitia
Napriek silnému spoliehaniu sa na zložité programovacie jazyky a knižnice sa nástroje na škrabanie webu ľahko používajú. Nevyžadujú, aby ste boli odborníkom na programovanie alebo dátovú vedu, aby ste ich využili čo najlepšie.
Údaje pre vás navyše pripravia webové škrabky. Väčšina webových škrabiek automaticky prevádza údaje do užívateľsky príjemných formátov. Tiež ich zostavujú do ľahko použiteľných paketov, ktoré je možné stiahnuť.
Extrakcia údajov API
API je skratka pre Application Programming Interface. Nejde však ani tak o nástroj na extrakciu údajov, ako o funkciu, ktorú si môžu implementovať majitelia webových stránok a softvéru. Rozhrania API fungujú ako sprostredkovateľ a umožňujú webovým stránkam a softvéru komunikovať a vymieňať si údaje a informácie.
V dnešnej dobe má väčšina webových stránok, ktoré spracovávajú obrovské množstvo údajov, vyhradené API, ako napríklad Facebook, YouTube, Twitter a dokonca aj Wikipedia. Napriek tomu, že je webová škrabka nástrojom, ktorý vám umožňuje prehľadávať a zoškrabávať údaje v najvzdialenejších rohoch webovej stránky, rozhrania API majú štruktúru extrakcie údajov.
Ako funguje extrakcia údajov API?
Rozhrania API nepožadujú, aby zberače údajov rešpektovali ich súkromie. Presadzujú to do svojho kódu. API sa skladajú z pravidiel ktoré stavajú štruktúru a obmedzujú užívateľskú skúsenosť. Riadia typ údajov, ktoré môžete extrahovať, ktoré zdroje údajov sú otvorené na zber a typ frekvencie vašich požiadaviek.
Rozhrania API si môžete predstaviť ako komunikačný protokol na mieru vytvorený pre web alebo aplikáciu. Má určité pravidlá, ktoré treba dodržiavať, a skôr, ako s ním budete komunikovať, musí hovoriť jeho jazykom.
Ako používať API na extrakciu údajov
Na používanie rozhrania API potrebujete slušnú úroveň znalostí v dotazovacom jazyku, ktorý web používa na vyžiadanie údajov pomocou syntaxe. Väčšina webových stránok používa vo svojich rozhraniach API JavaScript Object Notation alebo JSON, takže ak sa budete spoliehať na rozhrania API, budete potrebovať nejaké znalosti na zdokonalenie svojich znalostí.
Ale tým to nekončí. Vzhľadom na veľké množstvo údajov a rôzne ciele, ktoré ľudia často majú, rozhrania API zvyčajne odosielajú nespracované údaje. Aj keď tento proces nie je zložitý a vyžaduje iba znalosti databázy na začiatočníckej úrovni, budete musieť údaje previesť do CVS alebo SQL, aby ste s nimi mohli čokoľvek robiť.
Našťastie nie je všetko zlé pomocou rozhrania API.
Keďže ide o oficiálny nástroj, ktorý web ponúka, nemusíte si robiť starosti s používaním servera proxy ani s blokovaním svojej adresy IP. A ak sa obávate, že by ste mohli prekročiť niektoré etické hranice a údaje zo šrotu, ktoré ste nemali povolené, rozhrania API vám poskytnú prístup iba k údajom, ktoré chce poskytnúť vlastník.
V závislosti od vašej aktuálnej úrovne znalostí, cieľových webových stránok a vašich cieľov bude možno potrebné použiť rozhrania API a nástroje naškrabovanie webu. Ak webová stránka nemá vyhradené rozhranie API, je jedinou možnosťou použiť webovú škrabku. Webové stránky s rozhraním API-najmä ak si účtujú poplatok za prístup k dátam-však často robia škrabanie pomocou nástrojov tretích strán takmer nemožné.
Obrazový kredit: Joshua Sortino/Zrušiť striekanie
Uvažujete o kúpe tabletu Android? Tu sú dôvody na zváženie alternatívnych tabletov a niekoľko odporúčaní pre tablety.
Čítajte ďalej
- Technológia vysvetlená
- Programovanie
- Veľké dáta
- Zber dát
- Vývoj webových aplikácií
Anina je nezávislá autorka technológie a internetového zabezpečenia v MakeUseOf. V kybernetickej bezpečnosti začala písať pred 3 rokmi v nádeji, že bude prístupnejšia pre priemerného človeka. Baví sa učiť nové veci a obrovský hlupák z oblasti astronómie.
prihlásiť sa ku odberu noviniek
Pripojte sa k nášmu bulletinu a získajte technické tipy, recenzie, bezplatné elektronické knihy a exkluzívne ponuky!
Kliknutím sem sa prihlásite na odber