Webové scraping zahŕňa zhromažďovanie informácií vo forme údajov z webových stránok alebo stránok. Aj keď to nemusí byť vedomý čin, pri zhromažďovaní informácií ste web nejakým spôsobom poškriabali. Ale to je zvyčajne jemné.
Škrabanie webu alebo škrabanie obrazovky je vo všeobecnosti účelný úkon a profesionáli návrh automatizujú, aby získali obrovské údaje. Či už ručným kopírovaním textov na webovú stránku, použitím špecializovaných nástrojov alebo písaním skriptov na škrabanie webu, webové škrabky niekedy zasiahnu web veľmi ťažko tým, že urobia viac žiadostí naraz.
Ale zatiaľ čo mnoho firiem v súčasnosti využíva scraping na zvýšenie konkurenčnej výhody, je to v skutočnosti legálne?
Ktoré webové stránky by ste mali a nemali by ste škrabať?
Internet je súhrn informácií, ktoré ľuďom umožňujú prístup k starým údajom v reálnom čase. Webové scraping alebo scraping obrazovky je tu už nejaký čas. Koľko by ste ich však mali použiť a ktoré webové stránky môžete vyškrabať?
Niektoré webové stránky sú prísne vybavené webovými prehľadávačmi alebo škrabkami obrazovky a úplne ich blokujú. Je teda očividne zrejmé, že by ste takéto webové stránky nemali škrabať. Ľudia to však stále robia.
Bohužiaľ, také stránky nemôžu urobiť nič iné, aby to zastavili, okrem toho, že budú opravovať svoje medzery.
V ideálnom prípade by ste mali predtým, ako zoškrabete web, skontrolovať, či umožňuje prehľadávanie alebo nie. Zvyčajne to zistíte kontrolou súboru robots.txt na webe. Môžete to urobiť zadaním súboru „[webová adresa webu] /robots.txt“.
Súbor robots.txt zvyčajne nastavuje pravidlá pre rôzne prehľadávače alebo agenty používateľov. Tieto pravidlá sa však líšia v závislosti od príslušnej webovej stránky. Zatiaľ čo niektoré stránky umožňujú prehľadávanie na všetkých stránkach, niektoré určujú stránky, ktoré môže robot prehľadávať, a niektoré prehľadávače úplne blokujú.
Webové stránky, ktoré blokujú prehľadávanie všetkých stránok všetkými agentmi používateľov, zvyčajne stanovujú nasledujúce pravidlá:
user-agent: *
Zakázať: /
Súbor robots.txt, ktorý blokuje prehľadávanie určitých adresárov alebo stránok všetkými robotmi, vyzerá zvyčajne takto:
user-agent: *
Zakázať: / URL na stránku 1
Zakázať: / URL na stránku 2
Ak súbor robots.txt nezakazuje stránku, ktorú chcete prehľadávať, pravdepodobne ju môžete zoškrabať. V opačnom prípade by ste mali ustúpiť alebo požiadať o súhlas správcu. Môžu vám poskytnúť prístup.
Niektoré webové stránky navyše výslovne uvádzajú, či v rámci podmienok používania umožňujú prehľadávanie alebo nie. Niektorí to uvádzajú aj na vrchole svojho súboru robots.txt. Vždy to tiež skontrolujte, aby ste sa uistili, že robíte správnu vec.
Ako sa využíva scraping z webu
Takže ak ste dostávali nevyžiadané e-maily alebo SMS z webových stránok alebo od ľudí, ktorým ste nikdy neposkytli svoje osobné informácie, pravdepodobne ste niekde niekde boli zošrotovaní. A väčšinou je to prostredníctvom jedného z vašich sociálnych médií.
To znamená, že scraping webu niekedy nie je len obyčajné zhromažďovanie údajov, ktoré sa zobrazujú v klientskom rozhraní. Pri zlom zaobchádzaní môže mať za následok únik osobných a utajovaných skutočností.
Zatiaľ čo sa väčšina platforiem sociálnych médií na to zamračila, plazivé roboty stále majú prístup k profilom ľudí a ich kontaktné informácie budú uniknuté a zoškrabané.
Napríklad o Facebooku sa hovorí, že má zraniteľnosť, ktorá v minulosti prezradila kontaktné informácie používateľov, aj keď ich používatelia nechávajú v súkromí.
Podobne nedávno LinkedIn utrpel narušenie bezpečnosti, ktoré malo za následok únik osobných údajov patriace k viac ako 500 miliónom účtov. Táto zraniteľnosť v dôsledku toho viedla k zdieľaniu mnohých e-mailových adries a telefónnych čísel bez súhlasu majiteľov profilov.
Je nezákonné škrabať webovú stránku?
Nikdy nedošlo k záveru o zákonnosti škrabania webu. Namiesto toho sa zameriavame na to, ako prehľadávač pracuje od prípadu k prípadu, a na čo všetko používajú zhromaždené údaje.
Takže skôr ako vyvodzovanie záveru o jeho zákonnosti je škrabanie nezákonné. Ak to však urobíte uvážlivo, nie je to nezákonné.
Ako sa však očakávalo, zdá sa, že existuje prísnejšia politika pri zhromažďovaní a používaní údajov zo sociálnych médií, pretože súkromie používateľov je také dôležité. Všetko sa však stále spája s tým, ako ľudia škrabajú dáta.
The Blog o zákone o internete a sociálnych médiách analyzovala prípad spoločnosti hiQ Labs, spoločnosti zaoberajúcej sa škrabaním údajov, ktorá v roku 2019 vyhrala súdny spor s LinkedIn po tom, čo sa pokúsila blokovať hiQ Labs v škrabaní verejne dostupných údajov používateľov LinkedIn.
Keďže laboratóriá hiQ tvrdia, že zákon o počítačových podvodoch a zneužitiach (CFAA) zakazuje iba neoprávnený prístup, rozsudok potvrdil, že údaje LinkedIn sú verejne dostupné, takže každý, kto ich zošrotoval, tak urobil, pretože sú prístupný.
Okrem toho laboratóriá hiQ používali získané údaje iba na poskytnutie analytických riešení spoločnostiam - aby mohli lepšie prijímať rozhodnutia o nábore.
Naopak, Facebook nedávno žaloval vývojárov rozšírení Chrome ktorí poškriabali profily používateľov Facebooku bez ich súhlasu.
Podobne a napodobňovaciu stránku žaloval Facebook na zoškrabanie informácií o profile viacerých používateľov Instagramu a ich následné použitie na vytvorenie klonov. Podľa tejto správy potom spoločnosť Facebook išla ďalej, aby získala trvalé súdne opatrenie proti páchateľovi.
Existuje niekoľko prípadov, keď ľudia mohli nelegálne používať scraping z webu. Uvedené spoločnosti zhromažďovali údaje používateľov Facebooku klamne, bez súhlasu ich používateľov. Porušilo to teda zásady ochrany osobných údajov.
Aj keď teda scraping webu môže frustrovať web, z ktorého získava údaje, v súčasnosti žiadne všeobecné pravidlo nezabráni ľuďom v získaní toho, čo chcú, pokiaľ priamo neporušujú zákony o internete.
Je scraping na webe synonymom hackingu?
Existuje niekoľko mýtov týkajúcich sa škrabania webu. Jedným z nich je viera, že scraping s webovou stránkou znamená, že ste ju hackli. Aj keď hackerstvo môže nakoniec viesť k zošrotovaniu údajov, tvrdenie, že tento výraz sám o sebe znamená hacknutie webu, nie je pravdivé.
Web scraping môže zahŕňať použitie špecializované nástroje na plazenie alebo škrabanie, Aplikačné programové rozhrania (API) alebo skripty na škrabanie webu na získanie vykreslených údajov z webu. Na rozdiel od hackingu nekompromisuje web, ktorý poškriabe, ani nenarúša skúsenosti jeho používateľov.
Súvisiace: Čo je to škrabanie webu? Ako zhromažďovať údaje z webových stránok
Zatiaľ čo hackerstvo zahŕňa neoprávnený prístup, zvyčajne do databázy webových stránok, scraping webu sa zameriava iba na údaje, ktoré sú už viditeľné na klientskom rozhraní. Aj keď ľudia môžu škrabanie webov používať škodlivo, stále to nie je synonymum hackingu.
Okrem toho je na rozdiel od škrabania webu zámerné a neetické hackerstvo nezákonné.
Aké sú pozitíva web scrapingu?
Web scraping má veľa pozitív a dokonca aj niektoré technologické spoločnosti teraz ponúkajú svoje dáta zadarmo prostredníctvom API. Tieto informácie zvyčajne nestačia na vyhodnotenie obchodných trendov a rozhodovanie.
Spoločnosti teda teraz získavajú viac údajov scrapovaním webu, aby zlepšili postupy a zvýšili predaj. Vedci zaoberajúci sa údajmi navyše napájajú algoritmy strojového učenia údajmi zhromaždenými prostredníctvom škrabania obrazovky.
Týmito údajmi môžu byť obrázky použité na rozpoznávanie obrázkov, obyčajné texty na analýzu sentimentu alebo priame údaje o produkte na analýzu trhu a analýzu správania spotrebiteľa.
Súvisiace: Jedinečné spôsoby, ako získať súbory dát pre váš projekt strojového učenia
Takže scraping na webe je ešte užitočnejší, pretože ak máte prístup k informáciám, ktoré váš konkurent nemá, môžete ich poraziť.
Aj keď sa niektoré weby zamračia na webové škrabky, niektorým, dokonca aj službám elektronického obchodu, je jedno, či ich údaje zoškrabete alebo nie. Weboví giganti ako eBay a Salesforce odštartovali svoje API v roku 2000 a prvýkrát ponúkli programátorom prístup k verejným údajom.
Mali by ste vlastne škrabať web?
Zistili sme, že scraping na webe nie je nezákonný, ak je vykonané správnym spôsobom. Ale to, čo robíte s údajmi, ktoré škrabáte, je tiež znepokojujúce. Namiesto toho, aby ste to zneužívali, použite to na získanie ďalších poznatkov, ktoré vám a ostatným pomôžu pri prijímaní informovaných rozhodnutí.
Schopnosť web scraping vám však umožňuje prístup k veľkým častiam internetových dát, ktoré vám alebo vašej spoločnosti môžu pomôcť udržať sa nad obchodným priestorom. Ako dátový vedec dokonca rozširuje váš záber a zlepšuje vaše kódovacie a technické zručnosti.
Napríklad Python je jedným z programovacích jazykov, ktorý vám pomôže ľahko vyškriabať webovú stránku pomocou knižnice Beautiful Soup alebo rámca Scrapy.
Máte záujem o scraping z webu? Tu je príklad, ako vyškrabať web a získať ďalší obsah pomocou knižnice Beautiful Soup Python.
Prečítajte si Ďalej
- Bezpečnosť
- Programovanie
- Online bezpečnosť
- Škrabanie webu
Idowu je vášnivý pre čokoľvek inteligentné technológie a produktivitu. Vo voľnom čase sa hrá s kódovaním a keď sa nudí, prepne na šachovnicu, ale tiež rád občas vybočuje z rutiny. Jeho vášeň ukázať ľuďom cestu v moderných technológiách ho motivuje k tomu, aby písal viac.
Prihlásiť sa ku odberu noviniek
Pripojte sa k nášmu bulletinu s technickými tipmi, recenziami, bezplatnými elektronickými knihami a exkluzívnymi ponukami!
Ešte jeden krok…!
V e-maile, ktorý sme vám práve poslali, potvrďte svoju e-mailovú adresu.