Ak chcete analyzovať súbor údajov, musíte najprv porozumieť údajom. Niekedy možno nemáte žiadnu forhendovú znalosť súboru údajov, čo vám bráni vyťažiť z neho maximum. Ako dátový analytik môžete použiť prieskumnú dátovú analýzu (EDA), aby ste získali znalosti o svojom dátovom súbore pred hĺbkovou analýzou.

Prieskumná analýza údajov (EDA) skúma súbor údajov s cieľom získať zmysluplné poznatky. Proces vykonávania EDA zahŕňa dopytovanie informácií o štruktúre a obsahu súboru údajov.

Inštalácia balíka Gota

Balík Gota je najobľúbenejší pre analýza dát v Go; je to ako Balík Python Pandas ale pre Go. Balík Gota obsahuje mnoho metód na analýzu množín údajov a čítanie formátov JSON, CSV a HTML.

Spustite tento príkaz na svojom termináli v adresári, kde ste inicializovali súbor modulu Go:

ísť get -u github.com/ísť-gota/gota

Príkaz nainštaluje Gota do lokálneho adresára, pripravený na importovanie balíka, aby ste ho mohli použiť.

Rovnako ako Pandas, aj Gota podporuje operácie so sériami a dátovými rámcami. Balík Gota obsahuje dva podbalíky: séria a balík dataframe. V závislosti od vašich potrieb môžete importovať jednu alebo obe.

instagram viewer

importovať (
"github.com/ísť-gota/gota/series"
"github.com/ísť-gota/gota/dataframe"
)

Čítanie množiny údajov pomocou balíka Gota

Môžete použiť ľubovoľný súbor CSV, ale nasledujúce príklady zobrazujú výsledky z množina údajov Kaggle, ktorý obsahuje údaje o cene notebooku.

Gota vám umožňuje čítať formáty súborov CSV, JSON a HTML na vytváranie dátových rámcov pomocou Prečítajte si CSV, ReadJSON, a Prečítajte si HTML metódy. Takto načítate súbor CSV do objektu dátového rámca:

súbor, chyba := os. Open("/cesta/k/csv-subor.csv")

ak chyba!= nula {
fmt. Println("chyba pri otvorení súboru")
}

dataFrame := dátový rámec. ReadCSV(súbor)
fmt. Println (dataFrame)

Môžete použiť OTVORENÉ metóda os balík na otvorenie súboru CSV. Metóda ReadCSV načíta objekt súboru a vráti objekt dátového rámca.

Keď vytlačíte tento objekt, výstup je v tabuľkovom formáte. S objektom dátového rámca môžete ďalej manipulovať pomocou rôznych metód, ktoré Gota poskytuje.

Objekt vytlačí iba niektoré stĺpce, ak má množina údajov viac ako nastavenú hodnotu.

Načítavanie dimenzie množiny údajov

Rozmery dátového rámca sú počet riadkov a stĺpcov, ktoré obsahuje. Tieto rozmery môžete získať pomocou Dims metóda objektu dátového rámca.

var riadky, stĺpce = dataFrame. Dims()

Ak chcete získať iba druhú dimenziu, nahraďte jednu z premenných podčiarkovníkom. Môžete sa tiež dotazovať na počet riadkov a stĺpcov jednotlivo pomocou Nrow a Ncol metódy.

var riadky = dataFrame. Nrow()
var stĺpce = dataFrame. Ncol()

Načítavanie dátových typov stĺpcov

Ak chcete analyzovať množinu údajov, musíte poznať typy zložených údajov v stĺpcoch množiny údajov. Môžete ich získať pomocou Typy metóda vášho objektu dátového rámca:

var typy = dataFrame. Typy ()
fmt. Println (typy)

Metóda Types vracia rez obsahujúci typy údajov stĺpca:

Načítavanie názvov stĺpcov

Na výber konkrétnych stĺpcov pre operácie budete potrebovať názvy stĺpcov. Môžete použiť Mená spôsob, ako ich získať.

var columnNames := dataFrame. mená ()
fmt. Println (názvy stĺpcov)

Metóda Names vracia časť názvov stĺpcov.

Kontrola chýbajúcich hodnôt

Môžete mať množinu údajov, ktorá obsahuje nulové alebo nečíselné hodnoty. Takéto hodnoty môžete skontrolovať pomocou HasNaN a IsNaN metódy objektu série:

aCol := dataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()

HasNan skontroluje, či stĺpec obsahuje nulové prvky. IsNaN vráti časť boolovských hodnôt, ktoré predstavujú, či je každá hodnota v stĺpci číslo.

Vykonávanie popisnej štatistickej analýzy

Opisná štatistická analýza vám pomôže pochopiť rozdelenie číselných stĺpcov. Pomocou Popíšte metódou, môžete vygenerovať popisnú štatistickú analýzu vášho súboru údajov:

description := dataFrame. Opísať()
fmt. Println (popis)

Metóda Describe vráti metriky, ako sú priemer, štandardná odchýlka a maximálne hodnoty stĺpcov v množine údajov. Sumarizuje ich vo forme tabuľky.

Môžete byť aj konkrétni a zamerať sa na stĺpce a metriky výberom konkrétneho stĺpca a následným dotazovaním sa na požadovanú metriku. Najprv by ste mali načítať sériu predstavujúcu konkrétny stĺpec a potom použiť jej metódy, ako napríklad:

aCol := dataFrame. Col("display_size")
var priemer = aCol. priemer()
var medián = aKol. Medián()
var minimum = aKol. min()
var štandardOdchýlka = aKol. StdDev()
var maximum = aKol. Max()
var kvantily25 = aKol. Kvantil (25.0)

Tieto metódy odrážajú výsledky z deskriptívnej štatistickej analýzy, ktorú Describe vykonáva.

Načítanie prvkov v stĺpci

Jednou z posledných úloh, ktoré budete chcieť vykonať, je skontrolovať hodnoty v stĺpci pre všeobecný prehľad. Môžete použiť Záznamy metóda na zobrazenie hodnôt stĺpca.

aCol := dataFrame. Col("značka")
fmt. Println (aCol. Záznamy())

Táto metóda vráti časť reťazcov obsahujúcich hodnoty vo vybratom stĺpci:

Export dátového rámca Gota do súboru

Ak sa rozhodnete ísť ďalej a použiť balík Gota na úplnú analýzu údajov, budete musieť uložiť údaje do súborov. Môžete použiť Napíšte CSV a Napíšte JSON metódy dátového rámca na export súborov. Metódy zahŕňajú súbor, ktorý vytvoríte pomocou os balíka Vytvorte metóda.

Tu je návod, ako môžete exportovať dátový rámec pomocou balíka Gota.

dataFrame := dátový rámec. ReadCSV(súbor)
outputFile, err := os. Create("output.csv")

ak chyba!= nula {
log. fatálne (chyba)
}

err = dataFrame. WriteCSV(outputFile)

ak chyba!= nula {
log. Fatalln("Došlo k chybe pri zapisovaní obsahu dátového rámca do súboru")
}

The dataFrame premenná je reprezentácia dátového rámca. Keď použijete Vytvorte metóda os balík, vytvorí nový prázdny súbor so zadaným názvom a vráti súbor. Metóda WriteCSV vezme inštanciu súboru a vráti chybu resp nula ak nie je chyba.

Prieskumná analýza údajov je dôležitá

Pochopenie údajov a súborov údajov je nevyhnutné pre analytikov údajov a špecialistov na strojové učenie. Je to kritická operácia v ich pracovnom cykle a prieskumná analýza údajov je jednou z techník, ktoré na to používajú.

V balíku Gota je toho viac. Môžete ho použiť pre rôzne funkcie na boj s údajmi rovnakým spôsobom, akým by ste na analýzu údajov použili knižnicu Python Pandas. Gota však nepodporuje toľko funkcií ako Pandas.