Nedostatok údajov je často jedným z hlavných neúspechov väčšiny projektov v oblasti dátovej vedy. Vedieť, ako zbierať údaje pre akýkoľvek projekt, do ktorého sa chcete pustiť, je však dôležitá zručnosť, ktorú musíte získať ako vedecký pracovník v oblasti údajov.

Vedci v oblasti údajov a inžinieri strojového učenia teraz používajú moderné techniky zhromažďovania údajov na získanie ďalších údajov na účely výučby algoritmov. Ak plánujete zahájiť svoj prvý projekt v oblasti dátovej vedy alebo strojového učenia, musíte byť tiež schopní získať dáta.

Ako si môžete uľahčiť postup? Pozrime sa na niektoré moderné techniky, ktoré môžete použiť na zhromažďovanie údajov.

Prečo potrebujete viac údajov pre svoj projekt Data Science

Algoritmy strojového učenia závisia od údajov, aby boli presnejšie, presnejšie a prediktívnejšie. Tieto algoritmy sú trénované pomocou súborov údajov. Proces výcviku je trochu ako učiť batoľa po prvýkrát meno objektu, potom im umožní identifikovať ho osamote, keď ho uvidia ďalej.

instagram viewer

Ľudským bytostiam stačí na rozpoznanie nového objektu iba niekoľko príkladov. Nie je to tak pre stroj, pretože na oboznámenie sa s predmetom potrebuje stovky alebo tisíce podobných príkladov.

Tieto príklady alebo cvičné objekty musia mať formu údajov. Špeciálny algoritmus strojového učenia potom prechádza touto sadou údajov nazývanou tréningová sada - a dozviete sa viac o nej, aby bola presnejšia.

To znamená, že ak nedodáte dostatok údajov na vycvičenie vášho algoritmu, na konci projektu nemusíte dosiahnuť správny výsledok, pretože stroj nemá dostatok údajov, z ktorých by sa mohol učiť.

Je preto potrebné získať dostatočné údaje na zlepšenie presnosti vašich výsledkov. Pozrime sa na niektoré moderné stratégie, ktoré môžete použiť na dosiahnutie tohto cieľa.

1. Zošrotovanie údajov priamo z webovej stránky

Web scraping je automatizovaný spôsob získavania údajov z webu. V najzákladnejšej podobe môže scraping na webe zahŕňať kopírovanie a vloženie prvkov na webe do miestneho súboru.

Webové scraping však zahŕňa aj písanie špeciálnych skriptov alebo použitie špecializovaných nástrojov na priame scraping dát z webovej stránky. Môže to tiež zahŕňať dôkladnejšie zhromažďovanie údajov pomocou Aplikačné programové rozhrania (API), ako napríklad Serpstack.

Čerpajte užitočné údaje z výsledkov vyhľadávania pomocou rozhrania Serpstack API

Pomocou rozhrania Serpstack API môžete ľahko zbierať informácie zo stránok s výsledkami vyhľadávača Google a ďalších vyhľadávacích nástrojov.

Aj keď niektorí ľudia veria, že škrabanie webu môže viesť k strate duševného vlastníctva, môže k tomu dôjsť, iba keď to ľudia urobia zlomyseľne. Web scraping je legálny a pomáha podnikom robiť lepšie rozhodnutia zhromažďovaním verejných informácií o ich zákazníkoch a konkurentoch.

Súvisiace: Čo je to škrabanie webu? Ako zhromažďovať údaje z webových stránok

Môžete napríklad napísať skript na zhromažďovanie údajov z online obchodov na porovnanie cien a dostupnosti. Aj keď to môže byť trochu technickejšie, na webe môžete zhromažďovať aj nespracované médiá, ako sú zvukové súbory a obrázky.

Pozrite sa na príkladový kód uvedený nižšie, aby ste nahliadli do škrabania webu pomocou jazyka Python beautifulsoup4 Knižnica parserov HTML.

z importu bs4 BeautifulSoup
z urllib.request import urlopen
url = "Sem zadajte úplnú adresu URL cieľovej webovej stránky"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
print (webData.get_text ())

Pred spustením ukážkového kódu musíte nainštalovať knižnicu. Vytvorte virtuálne prostredie z príkazového riadku a nainštalujte knižnicu spustením pip nainštalujte beautifulsoup4.

2. Prostredníctvom webových formulárov

Môžete tiež využiť online formuláre na zhromažďovanie údajov. Toto je najužitočnejšie, ak máte cieľovú skupinu ľudí, od ktorých chcete zhromažďovať údaje.

Nevýhodou odosielania webových formulárov je, že nemusíte zhromažďovať toľko údajov, koľko chcete. Je to veľmi užitočné pre malé projekty alebo výukové programy pre dátovú vedu, ale pri dosahovaní veľkého množstva anonymných ľudí môžete naraziť na obmedzenia.

Aj keď platené služby zberu údajov online existujú, pre jednotlivcov sa neodporúčajú, pretože sú väčšinou príliš drahé - okrem prípadov, keď vám nevadí minúť nejaké peniaze za projekt.

Existujú rôzne webové formuláre na zhromažďovanie údajov od ľudí. Jedným z nich sú Formuláre Google, ku ktorým máte prístup kliknutím na adresu forms.google.com. Môžeš používať Google Forms na zhromažďovanie kontaktných informácií, demografické údaje a ďalšie osobné údaje.

Po vytvorení formulára stačí odoslať odkaz cieľovej skupine prostredníctvom pošty, SMS alebo akýmkoľvek iným dostupným spôsobom.

Formuláre Google sú však iba jedným príkladom populárnych webových formulárov. Existuje veľa alternatív, ktoré tiež umožňujú vynikajúce zhromažďovanie údajov.

Údaje môžete zbierať aj prostredníctvom sociálnych sietí, ako sú Facebook, LinkedIn, Instagram a Twitter. Získavanie údajov zo sociálnych médií je o niečo technickejšie ako ktorákoľvek iná metóda. Je to úplne automatizované a zahŕňa použitie rôznych nástrojov API.

Zo sociálnych médií môže byť ťažké extrahovať údaje, pretože sú relatívne neorganizované a je ich obrovské množstvo. Ak je tento typ súboru údajov správne usporiadaný, môže byť užitočný v projektoch vedy o údajoch, ktoré zahŕňajú online analýzu nálad, analýzu trhových trendov a budovanie značky online.

Napríklad Twitter je príkladom zdroja údajov sociálnych médií, kde pomocou neho môžete zhromaždiť veľké množstvo súborov údajov tweepy Balík API v jazyku Python, ktorý si môžete nainštalovať s pip nainštaluj tweepy príkaz.

Základný príklad je, že blok kódu na extrakciu tweetov na domovskej stránke Twitteru vyzerá takto:

import tweepy
import re
myAuth = tweepy. OAuthHandler (sem vložte kľúč spotrebiteľa, sem vložte kľúč spotrebiteľa)
auth.set_access_token (tu prilepiť access_token, sem prilepiť access_token_secret)
autentifikovať = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
pre ciele v target_tweet:
print (targets.text)

Môžete navštíviť docs.tweepy.org webovú stránku pre prístup k tweepy dokumentáciu, kde nájdete ďalšie informácie o tom, ako ju používať. Ak chcete používať API služby Twitter, musíte požiadať o účet vývojára tak, že prejdete na adresu developer.twitter.com webovú stránku.

Facebook je ďalšou výkonnou platformou sociálnych médií na zhromažďovanie údajov. Používa špeciálny koncový bod API, ktorý sa nazýva Facebook Graph API. Toto API umožňuje vývojárom zhromažďovať údaje o správaní konkrétnych používateľov na platforme Facebook. Prístup k dokumentácii Facebook Graph API nájdete na developers.facebook.com dozvedieť sa o tom viac.

Podrobné vysvetlenie zhromažďovania údajov na sociálnych sieťach pomocou rozhrania API je nad rámec tohto článku. Ak máte záujem dozvedieť sa viac, môžete si prečítať dokumentáciu každej platformy, kde nájdete podrobné informácie o nich.

Okrem písania skriptov na pripojenie k koncovému bodu API sú údaje zo sociálnych médií zhromažďujúce aj nástroje tretích strán Expert na škrabanie a mnoho ďalších sú tiež k dispozícii. Väčšina z týchto webových nástrojov však má svoju cenu.

4. Zhromažďovanie už existujúcich súborov údajov z oficiálnych zdrojov

Predchádzajúce súbory údajov môžete zbierať aj z autoritatívnych zdrojov. Táto metóda spočíva v návšteve oficiálnych databáz a sťahovaní overených súborov údajov z nich. Na rozdiel od škrabania webu a iných možností je táto možnosť rýchlejšia a vyžaduje minimálne alebo žiadne technické znalosti.

Súbory údajov o týchto typoch zdrojov sú zvyčajne dostupné vo formátoch CSV, JSON, HTML alebo Excel. Niektoré príklady smerodajných zdrojov údajov sú Svetová banka, UNdataa niekoľko ďalších.

Niektoré zdroje údajov môžu spôsobiť, že súčasné údaje budú súkromné, aby sa zabránilo prístupu verejnosti k nim. Ich archívy sú však často k dispozícii na stiahnutie.

Viac oficiálnych zdrojov údajov pre váš projekt strojového učenia

Tento zoznam by vám mal poskytnúť dobrý východiskový bod pre získanie rôznych typov údajov, s ktorými môžete vo svojich projektoch pracovať.

  • Portál otvorených údajov EÚ
  • Kaggle množiny údajov
  • Vyhľadávanie v množine údajov Google
  • Dátové centrum
  • Register otvorených údajov na AWS
  • Európska vládna agentúra - Údaje a mapy
  • Open Data spoločnosti Microsoft Research
  • Úžasné verejné úložisko dátových súborov na GitHub
  • Údaje. Gov: Domov otvorených údajov vlády USA

Existuje oveľa viac zdrojov ako toto, a starostlivé vyhľadávanie vás odmení údajmi, ktoré sú ideálne pre vaše vlastné vedecké projekty v oblasti údajov.

Pre lepšie výsledky skombinujte tieto moderné techniky

Zhromažďovanie údajov môže byť únavné, ak sú dostupné nástroje na vykonanie úlohy obmedzené alebo ťažko pochopiteľné. Zatiaľ čo staršie a konvenčné metódy stále fungujú dobre a v niektorých prípadoch sa im nedá vyhnúť, moderné metódy sú rýchlejšie a spoľahlivejšie.

Avšak namiesto spoliehania sa na jedinú metódu môže kombinácia týchto moderných spôsobov zhromažďovania údajov priniesť lepšie výsledky.

Email
5 softvérových nástrojov na analýzu údajov, ktoré sa môžete rýchlo naučiť

Pozeráte sa na analýzu dát? Tu je niekoľko nástrojov, ktoré by ste sa mali naučiť.

Súvisiace témy
  • Programovanie
  • Python
  • Veľké dáta
  • Strojové učenie
  • Zber dát
  • Analýza dát
O autorovi
Idowu Omisola (45 publikovaných článkov)

Idowu je vášnivý pre čokoľvek inteligentné technológie a produktivitu. Vo voľnom čase sa hrá s kódovaním a keď sa nudí, prepne na šachovnicu, ale tiež rád občas vybočuje z rutiny. Jeho vášeň ukázať ľuďom cestu v moderných technológiách ho motivuje k tomu, aby písal viac.

Viac od Idowu Omisola

Prihlásiť sa ku odberu noviniek

Pripojte sa k nášmu bulletinu s technickými tipmi, recenziami, bezplatnými elektronickými knihami a exkluzívnymi ponukami!

Ešte jeden krok…!

V e-maile, ktorý sme vám práve poslali, potvrďte svoju e-mailovú adresu.

.