Reklama
Čo by ste povedali, keby som vám povedal, že máte k dispozícii nástroje na prevratný výskum rozbíjania Zeme? Dobre, viete a ukážem vám ako.
Vlády, akademické inštitúcie a neziskové výskumné organizácie zverejňujú tabuľky plné údajov pre verejnosť. Bez toho, aby niekto tieto informácie používal, jeho skutočná hodnota nebude nikdy známa. Bohužiaľ, málokto má informácie, zručnosti alebo nástroje na zber údajov a na vytváranie zaujímavých vzťahov medzi zdanlivo neprepojenými informáciami.
Pozadie
Veľa výskumov, ktoré robím pre svoj vlastný blog, zahŕňa kopanie toho, čo je známe ako neviditeľný web 12 najlepších vyhľadávacích nástrojov na objavovanie neviditeľného webuGoogle alebo Bing nemôžu vyhľadávať všetko. Ak chcete preskúmať neviditeľný web, musíte použiť tieto špeciálne vyhľadávacie nástroje. Čítaj viac , na odhalenie údajov, ktoré boli zverejnené, ale pred nimi boli skryté vyhľadávače 5 najpokročilejších vyhľadávacích nástrojov na webe Čítaj viac vnútri online databázy. To je hlboký web
Cieľom spoločnosti TorSearch je byť spoločnosťou Google pre hlboký webTor je skrytá služba a súčasť Deep Web. TorSearch je nový anonymný vyhľadávací nástroj, ktorý chce jeho zakladateľ Chris MacNaughton urobiť z Google of Tor. Čítaj viac a je to množstvo cenných údajov. Veľmi často sa stretávam s webovými stránkami, ktoré sú naplnené iba niektorými najcennejšími údajmi o témach, ktoré spúšťajú škálu od údajov zo sčítania ľudu po epidemiologické štúdie o zriedkavých chorobách. Neustále mám nové nápady, ako sa pokúsiť porovnať tieto rôzne zdroje údajov pomocou rôznych nástroje - a jedným z najcennejších nástrojov, ktoré som našiel, je webový dopyt vo vnútri spoločnosti Microsoft Excel.Nájdenie zaujímavých dátových korelácií
To, čo vám dnes ukážem, je príklad toho, ako môžete využiť webové dotazy programu Excel na získavanie údajov rôzne webové stránky, a porovnajte ich navzájom proti sebe, aby ste našli možné korelácie medzi internetom dát.
Spôsob, ako začať také cvičenie, je prísť so zaujímavou hypotézou. Napríklad - aby som tu veci udržal zaujímavý - náhodne si predpokladám, že prudký nárast mier autizmu v Spojených štátoch sú spôsobené buď očkovaním očkovacou látkou alebo zvyšujúcou sa prítomnosťou elektromagnetických polí u detí a okolo nich, napríklad buniek telefónov. Je to šialená hypotéza, ktorú sa vám páči na väčšine webových stránok o sprisahaní, ale to ju robí zábavnou. Začnime teda?
Najprv otvorte program Excel, prejdite na položku ponuky údajov a na paneli s ponukami vyhľadajte ikonu „Z webu“.
Takto budete importovať rôzne tabuľky s údajmi z mnohých webových stránok, ktoré ich publikovali.
Import webových údajov do programu Excel
Za starých čias by ste sa teda mali pokúsiť skopírovať údaje z tejto tabuľky na webovú stránku, vložiť ich do Excelu a potom sa vysporiadať so všetkými šialenými problémami s formátovaním, ktoré s tým súvisia. Celkom problémov a mnohokrát to jednoducho nestojí za bolesti hlavy. V prípade webových dopytov programu Excel sú tieto dni preč. Predtým, ako budete môcť importovať údaje, musíte si, samozrejme, prehliadať web Google, aby ste našli potrebné údaje vo formáte tabuľky. V mojom prípade som našiel webovú stránku, ktorá zverejnila štatistiku ministerstva školstva pre počet študentov verejnej školy v USA, o ktorých sa zistilo, že majú autizmus. Pekná tabuľka uvádzala čísla od roku 1994 až do roku 2006.
Stačí kliknúť na položku „Z webu“, prilepte adresu URL webovej stránky do poľa adresy dopytu a potom posúvajte stránku nadol, kým sa vedľa tabuľky nezobrazí žltá šípka s údajmi, ktoré chcete importovať.
Kliknite na šípku, aby sa stala zelenou značkou začiarknutia.
Nakoniec povedzte Excelu, do ktorého poľa chcete vložiť údaje tabuľky do svojej novej tabuľky.
Potom - Voila! Dáta automaticky prúdia priamo do tabuľky.
S trendom miery autizmu na školách v rokoch 1996 - 2006 je teda čas hľadať trendy očkovania a používania mobilných telefónov.
Našťastie som rýchlo našiel trendy pre účastníkov mobilných telefónov v USA od roku 1985 do roku 2012. Vynikajúce údaje pre túto konkrétnu štúdiu. Na importovanie tabuľky som opäť použil nástroj Excel Web Query.
Importoval som túto tabuľku do čistého nového listu. Potom som objavil vakcinačné trendy pre percento školských detí očkovaných pre rôzne choroby. Importoval som túto tabuľku pomocou nástroja Web Query do tretieho hárka. Nakoniec som mal tri listy s tromi tabuľkami vyplnenými zdanlivo neprepojenými údajmi, ktoré som objavil na webe.
Ďalším krokom je pomocou programu Excel analyzovať údaje a pokúsiť sa identifikovať akékoľvek korelácie. Tu prichádza do hry jeden z mojich obľúbených nástrojov na analýzu údajov - kontingenčná tabuľka.
Analýza údajov v Exceli pomocou kontingenčnej tabuľky
Najlepšie je vytvoriť kontingenčnú tabuľku v úplne novom a prázdnom hárku. Chcete použiť sprievodcu na to, čo chcete robiť. Ak chcete povoliť sprievodcu kontingenčnou tabuľkou v programe Excel, musíte súčasne stlačiť kláves Alt-D, kým sa neobjaví okno s upozornením. Potom tieto tlačidlá pustite a stlačte tlačidlo „P“. Potom sa zobrazí vyskakovacie okno sprievodcu.
V prvom okne sprievodcu chcete vybrať možnosť „Viaceré rozsahy konsolidácie“, čo vám umožňuje vybrať údaje zo všetkých importovaných hárkov. Týmto spôsobom môžete zlúčiť všetky tieto zdanlivo nesúvisiace údaje do jedného výkonného otočného stola. V niektorých prípadoch bude možno potrebné niektoré údaje masírovať. Napríklad som musel opraviť pole „Rok“ v tabuľke s autizmom tak, aby ukazovalo „1994“ namiesto „1994-95“ - čím sa lepšie zladí s tabuľkami na ostatných listoch, ktoré mali tiež primárny rok lúka.
Toto spoločné pole medzi údajmi je to, čo potrebujete, aby ste sa mohli pokúsiť porovnať informácie, takže nezabudnite, že pri vyhľadávaní vašich údajov na webe.
Akonáhle je kontingenčná tabuľka hotová a máte všetky rôzne hodnoty údajov zobrazené v jednej tabuľke, je čas urobiť vizuálnu analýzu, aby ste zistili, či existuje nejaké zjavné spojenie, ktoré na vás vyskočí.
Kľúčom je vizualizácia údajov
Mať veľa čísel v tabuľke je skvelé, ak ste ekonóm, ale najrýchlejší a najjednoduchší spôsob, ako mať to „aha!“ okamih, keď sa snažíte nájsť spojenie ako ihla v kupce sena, je prostredníctvom tabuliek a grafmi. Keď budete mať svoj kontingenčný graf na svojom mieste so všetkými zhromaždenými množinami údajov, je čas vytvoriť graf. Čiarový graf sa zvyčajne darí najlepšie, ale závisí to od údajov. Sú prípady, keď stĺpcový graf funguje omnoho lepšie. Pokúste sa pochopiť, na aké údaje sa pozeráte a ktoré porovnania formulárov fungujú najlepšie.
V tomto prípade sa pozerám na údaje v priebehu času, takže čiarový graf je skutočne najlepší spôsob, ako vidieť trendy v priebehu rokov. Zaznamenávanie mier autizmu (zelená) oproti mierkam vakcinácie zmenšeným (tmavo modrá), vakcínám proti kiahňam (svetlo modrá) a používanie mobilných telefónov (fialová) sa v tejto vzorke údajov, ktorú som hral, náhle objavila nepárna korelácia s.
Napodiv, trend v používaní mobilných telefónov od roku 1994 do roku 2006 takmer dokonale zodpovedal stúpaniu mier autizmu v rovnakom časovom období. Aj keď bol vzor úplne neočakávaný, je to perfektný príklad toho, ako zviazanie zaujímavých údajov môže odhaliť fascinujúce kontakty - poskytuje vám lepší prehľad a motiváciu na to, aby ste pokračovali v tlači a hľadali ďalšie údaje, ktoré by vás mohli ďalej podporovať hypotéza.
Jedna korelácia, ako je uvedená vyššie, nič nedokazuje. Postupom času rastie množstvo trendov - vzorec by mohol byť náhoda, ale môže to byť aj dôležitý kľúč pri pokračujúcom hľadaní ďalších údajov na internete. Našťastie máte výkonný nástroj s názvom Webové dotazy programu Excel, ktorý tento quest trochu zjednoduší.
Fotografický kredit: Kevin Dooley cez photopincc
Ryan má titul bakalára v odbore elektrotechnika. Pracoval 13 rokov v automatizačnom inžinierstve, 5 rokov v IT a teraz je aplikačným inžinierom. Bývalý šéfredaktor MakeUseOf, vystúpil na národných konferenciách o vizualizácii údajov a vystupoval v celoštátnych televíziách a rozhlase.