Vďaka knižnici pandy je veda o údajoch založená na pythone jednoduchou jazdou. Je to populárna knižnica Pythonu na čítanie, spájanie, triedenie, čistenie údajov a ďalšie. Hoci sa pandy ľahko používajú a aplikujú na množiny údajov, je potrebné sa naučiť veľa funkcií na manipuláciu s údajmi.

Môžete použiť pandy, ale je veľká šanca, že ich nevyužívate na riešenie problémov súvisiacich s údajmi. Tu je náš zoznam cenných funkcií pandy manipulujúcich s údajmi, ktoré by mal poznať každý dátový vedec.

Nainštalujte si pandy do svojho virtuálneho prostredia

Skôr ako budeme pokračovať, uistite sa, že ste nainštalovali pandy do svojho virtuálneho prostredia pomocou pip:

pip install pandy

Po inštalácii importujte pandy v hornej časti skriptu a poďme ďalej.

1. pandy. DataFrame

Používaš pandy. DataFrame() na vytvorenie dátového rámca v pandách. Existujú dva spôsoby použitia tejto funkcie.

DataFrame môžete vytvoriť po stĺpcoch vložením slovníka do pandy. DataFrame() funkciu. Tu je každý kľúč stĺpec, zatiaľ čo hodnoty sú riadky:

instagram viewer
importovať pandy
DataFrame = pandy. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
tlačiť (DataFrame)

Ďalšou metódou je vytvorenie DataFrame cez riadky. Tu však oddelíte hodnoty (riadkové položky) od stĺpcov. Počet údajov v každom zozname (údaje riadkov) sa musí tiež zhodovať s počtom stĺpcov.

importovať pandy
DataFrame = pandy. DataFrame([[1, 4, 5], [7, 19, 13]], stĺpce= ["J", "K", "L"])
tlačiť (DataFrame)

2. Čítajte z a píšte do Excelu alebo CSV v pandách

Pomocou pandy môžete čítať alebo zapisovať do súborov Excel alebo CSV.

Čítanie súborov Excel alebo CSV

Ak chcete prečítať súbor programu Excel:

#Nahraďte example.xlsx cestou k súboru Excel
DataFrame = DataFrame.read_excel("example.xlsx")

Ako čítať súbor CSV:

#Nahraďte example.csv cestou k súboru CSV
DataFrame = DataFrame.read_csv("example.csv")

Zápis do Excelu alebo CSV

Zápis do Excelu alebo CSV je známa operácia s pandami. A je to užitočné na ukladanie novo vypočítaných tabuliek do samostatných údajových listov.

Ak chcete zapisovať do hárka programu Excel:

DataFrame.to_excel("úplná_cesta_k_cieľovému_priečinku/názov_súboru.xlsx")

Ak chcete napísať do CSV:

DataFrame.to_csv("úplná_cesta_k_cieľovému_priečinku/názov_súboru.csv")

Môžete tiež vypočítať centrálne tendencie každého stĺpca v DataFrame pomocou pandy.

Tu je návod, ako získať strednú hodnotu každého stĺpca:

DataFrame.mean()

Pre hodnotu mediánu alebo režimu nahraďte stredný() s medián () alebo režim().

4. DataFrame.transform

pandy DataFrame.transform() upravuje hodnoty DataFrame. Prijíma funkciu ako argument.

Napríklad kód uvedený nižšie vynásobí každú hodnotu v DataFrame tromi použitím Pythonova lambda funkcia:

DataFrame = DataFrame.transform (lambda y: y*3)
tlačiť (DataFrame)

5. DataFrame.isnull

Táto funkcia vráti boolovskú hodnotu a označí všetky riadky obsahujúce nulové hodnoty ako Pravda:

DataFrame.isnull()

Výsledok vyššie uvedeného kódu môže byť pre väčšie množiny údajov ťažko čitateľný. Takže môžete použiť isnull().sum() funkciu. Toto vráti súhrn všetkých chýbajúcich hodnôt pre každý stĺpec:

DataFrame.isnull().sum()

6. Dataframe.info

The Info() funkcia je an nevyhnutná operácia pandy. Namiesto toho vráti súhrn chýbajúcich hodnôt pre každý stĺpec:

DataFrame.info()

7. DataFrame.describe

The opísať () funkcia vám poskytuje súhrnnú štatistiku DataFrame:

DataFrame.describe()

8. DataFrame.replace

Pomocou DataFrame.replace() metódou v pandách môžete nahradiť vybrané riadky inými hodnotami.

Napríklad na výmenu neplatných riadkov s Nan:

# Uistite sa, že ste pip install numpy, aby to fungovalo
import numpy
importovať pandy
# Pridaním kľúčového slova na mieste a jeho nastavením na hodnotu True budú zmeny trvalé:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
tlačiť (DataFrame)

9. DataFrame.fillna

Táto funkcia vám umožňuje vyplniť prázdne riadky konkrétnou hodnotou. Môžete vyplniť všetky Nan riadky v množine údajov so strednou hodnotou, napríklad:

DataFrame.fillna (df.mean(), inplace = True)
tlačiť (DataFrame)

Môžete tiež špecifikovať stĺpce:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
tlačiť (DataFrame)

10. DataFrame.dropna

The dropna() metóda odstráni všetky riadky obsahujúce hodnoty null:

DataFrame.dropna (inplace = True)
tlačiť (DataFrame)

11. DataFrame.insert

Môžete použiť pandy vložiť () funkcia na pridanie nového stĺpca do DataFrame. Akceptuje tri kľúčové slová, názov stĺpca, zoznam jeho údajov a jeho umiestnenie, čo je index stĺpcov.

Funguje to takto:

DataFrame.insert (stĺpec = 'C', hodnota = [3, 4, 6, 7], loc=0)
tlačiť (DataFrame)

Vyššie uvedený kód vloží nový stĺpec na index nula stĺpca (stane sa prvým stĺpcom).

12. DataFrame.loc

Môžeš použiť lok nájsť prvky v konkrétnom indexe. Ak chcete zobraziť všetky položky v treťom riadku, napríklad:

DataFrame.loc[2]

13. DataFrame.pop

Táto funkcia vám umožňuje odstrániť určený stĺpec z dátového rámca pandas.

Prijíma an položka kľúčové slovo, vráti vyskočený stĺpec a oddelí ho od zvyšku DataFrame:

DataFrame.pop (item= 'názov_stĺpca')
tlačiť (DataFrame)

14. DataFrame.max, min

Získanie maximálnych a minimálnych hodnôt pomocou pandy je jednoduché:

DataFrame.min()

Vyššie uvedený kód vráti minimálnu hodnotu pre každý stĺpec. Ak chcete získať maximum, vymeňte min s max.

15. DataFrame.join

The pripojiť sa () funkcia pandas vám umožňuje zlúčiť DataFrames s rôznymi názvami stĺpcov. Môžete použiť ľavé, pravé, vnútorné alebo vonkajšie spojenie. Pre ľavé spojenie DataFrame s dvoma ďalšími:

#Vľavo spojte dlhšie stĺpce s kratšími
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
vytlačiť (newDataFrame)

Ak chcete spojiť DataFrames s podobnými názvami stĺpcov, môžete ich odlíšiť zahrnutím prípony vľavo alebo vpravo. Urobte to zahrnutím lsufix alebo rsufix kľúčové slovo:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
vytlačiť (newDataFrame)

16. DataFrame.combine

The kombinovať () Funkcia sa hodí na zlúčenie dvoch DataFrames obsahujúcich podobné názvy stĺpcov na základe nastavených kritérií. Prijíma a funkciu kľúčové slovo.

Napríklad, ak chcete zlúčiť dva DataFrame s podobnými názvami stĺpcov iba na základe maximálnych hodnôt:

newDataFrame = df.combine (df2, numpy.minimum)
vytlačiť (newDataFrame)

Poznámka: Môžete tiež definovať funkciu vlastného výberu a vložiť numpy.minimálne.

17. DataFrame.astype

The astype() funkcia zmení typ údajov konkrétneho stĺpca alebo DataFrame.

Ak chcete zmeniť všetky hodnoty v DataFrame na reťazec, napríklad:

DataFrame.astype (str)

18. DataFrame.sum

The suma() funkcia v pandách vracia súčet hodnôt v každom stĺpci:

DataFrame.sum()

Môžete tiež nájsť kumulatívny súčet všetkých položiek pomocou cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandy pokles() funkcia vymaže konkrétne riadky alebo stĺpce v DataFrame. Ak ho chcete použiť, musíte zadať názvy stĺpcov alebo index riadkov a os.

Ak chcete odstrániť konkrétne stĺpce, napríklad:

df.drop (columns=['colum1', 'column2'], axis=0)

Ak chcete napríklad vypustiť riadky na indexoch 1, 3 a 4:

df.drop([1, 3, 4], os=0)

20. DataFrame.corr

Chcete nájsť koreláciu medzi celočíselnými alebo pohyblivými stĺpcami? pandy vám to môžu pomôcť dosiahnuť pomocou corr() funkcia:

DataFrame.corr()

Vyššie uvedený kód vráti nový DataFrame obsahujúci korelačnú sekvenciu medzi všetkými celočíselnými alebo pohyblivými stĺpcami.

21. DataFrame.add

The pridať () funkcia vám umožňuje pridať konkrétne číslo ku každej hodnote v DataFrame. Funguje tak, že iteruje cez DataFrame a funguje na každej položke.

Súvisiace:Ako používať slučky v Pythone

Ak chcete pridať 20 ku každej z hodnôt v konkrétnom stĺpci obsahujúcom celé čísla alebo plávajúce čísla, napríklad:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Rovnako ako funkcia sčítania môžete tiež odpočítať číslo od každej hodnoty v dátovom rámci alebo v konkrétnom stĺpci:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Toto je multiplikačná verzia funkcie pridávania pand:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Podobne môžete rozdeliť každý údajový bod v stĺpci alebo údajovom rámci konkrétnym číslom:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Pomocou std() Funkcia pandas vám tiež umožňuje vypočítať štandardnú odchýlku pre každý stĺpec v DataFrame. Funguje tak, že prejde každý stĺpec v množine údajov a vypočíta štandardnú odchýlku pre každý:

DataFrame.std()

26. DataFrame.sort_values

Hodnoty môžete triediť aj vzostupne alebo zostupne na základe konkrétneho stĺpca. Ak chcete zoradiť DataFrame v zostupnom poradí, napríklad:

newDataFrame = DataFrame.sort_values ​​(podľa = "colmun_name", zostupne = True)

27. DataFrame.melt

The roztopiť sa () funkcia v pandách prevráti stĺpce v DataFrame na jednotlivé riadky. Je to ako odhalenie anatómie DataFrame. Umožňuje vám teda explicitne zobraziť hodnotu priradenú ku každému stĺpcu.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Táto funkcia vráti celkový počet položiek v každom stĺpci:

DataFrame.count()

29. DataFrame.query

pandy dopyt() umožňuje volať položky pomocou ich indexového čísla. Ak chcete získať položky v treťom riadku, napríklad:

DataFrame.query('4') # Zavolajte dotaz na štvrtý index

30. DataFrame.where

The kde() funkcia je pandas dotaz, ktorý akceptuje podmienku na získanie konkrétnych hodnôt v stĺpci. Napríklad, ak chcete získať všetky vekové kategórie do 30 rokov od an Vek stĺpec:

DataFrame.where (DataFrame['Vek'] < 30)

Vyššie uvedený kód poskytuje výstup DataFrame obsahujúci všetky vekové skupiny mladšie ako 30 rokov, ale priraďuje Nan do riadkov, ktoré nespĺňajú podmienku.

Narábajte s dátami ako profesionál s pandami

pandas je pokladnicou funkcií a metód na prácu s malými až veľkými súbormi údajov pomocou jazyka Python. Knižnica sa hodí aj na čistenie, overovanie a prípravu údajov na analýzu alebo strojové učenie.

Ak si nájdete čas na to, aby ste si to osvojili, rozhodne vám to uľahčí život ako dátovému vedcovi a stojí to za námahu. Takže si pokojne vyberte všetky funkcie, ktoré zvládnete.

20 funkcií Pythonu, ktoré by ste mali vedieť

Štandardná knižnica Pythonu obsahuje mnoho funkcií, ktoré vám pomôžu s vašimi programovacími úlohami. Získajte informácie o najužitočnejších a vytvorte robustnejší kód.

Prečítajte si ďalej

zdieľamTweetujteEmail
Súvisiace témy
  • Programovanie
  • Python
  • Programovanie
  • databázy
O autorovi
Idowu Omisola (123 publikovaných článkov)

Idowu je nadšený z akejkoľvek inteligentnej technológie a produktivity. Vo voľnom čase sa hrá s kódovaním a keď sa nudí, prepne na šachovnicu, no tiež sa rád raz za čas odtrhne od rutiny. Jeho vášeň ukázať ľuďom cestu okolo moderných technológií ho motivuje k ďalšiemu písaniu.

Viac od Idowu Omisola

prihlásiť sa ku odberu noviniek

Pripojte sa k nášmu bulletinu a získajte technické tipy, recenzie, bezplatné e-knihy a exkluzívne ponuky!

Kliknutím sem sa prihlásite na odber