Vďaka knižnici pandy je veda o údajoch založená na pythone jednoduchou jazdou. Je to populárna knižnica Pythonu na čítanie, spájanie, triedenie, čistenie údajov a ďalšie. Hoci sa pandy ľahko používajú a aplikujú na množiny údajov, je potrebné sa naučiť veľa funkcií na manipuláciu s údajmi.
Môžete použiť pandy, ale je veľká šanca, že ich nevyužívate na riešenie problémov súvisiacich s údajmi. Tu je náš zoznam cenných funkcií pandy manipulujúcich s údajmi, ktoré by mal poznať každý dátový vedec.
Nainštalujte si pandy do svojho virtuálneho prostredia
Skôr ako budeme pokračovať, uistite sa, že ste nainštalovali pandy do svojho virtuálneho prostredia pomocou pip:
pip install pandy
Po inštalácii importujte pandy v hornej časti skriptu a poďme ďalej.
1. pandy. DataFrame
Používaš pandy. DataFrame() na vytvorenie dátového rámca v pandách. Existujú dva spôsoby použitia tejto funkcie.
DataFrame môžete vytvoriť po stĺpcoch vložením slovníka do pandy. DataFrame() funkciu. Tu je každý kľúč stĺpec, zatiaľ čo hodnoty sú riadky:
importovať pandy
DataFrame = pandy. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
tlačiť (DataFrame)
Ďalšou metódou je vytvorenie DataFrame cez riadky. Tu však oddelíte hodnoty (riadkové položky) od stĺpcov. Počet údajov v každom zozname (údaje riadkov) sa musí tiež zhodovať s počtom stĺpcov.
importovať pandy
DataFrame = pandy. DataFrame([[1, 4, 5], [7, 19, 13]], stĺpce= ["J", "K", "L"])
tlačiť (DataFrame)
2. Čítajte z a píšte do Excelu alebo CSV v pandách
Pomocou pandy môžete čítať alebo zapisovať do súborov Excel alebo CSV.
Čítanie súborov Excel alebo CSV
Ak chcete prečítať súbor programu Excel:
#Nahraďte example.xlsx cestou k súboru Excel
DataFrame = DataFrame.read_excel("example.xlsx")
Ako čítať súbor CSV:
#Nahraďte example.csv cestou k súboru CSV
DataFrame = DataFrame.read_csv("example.csv")
Zápis do Excelu alebo CSV
Zápis do Excelu alebo CSV je známa operácia s pandami. A je to užitočné na ukladanie novo vypočítaných tabuliek do samostatných údajových listov.
Ak chcete zapisovať do hárka programu Excel:
DataFrame.to_excel("úplná_cesta_k_cieľovému_priečinku/názov_súboru.xlsx")
Ak chcete napísať do CSV:
DataFrame.to_csv("úplná_cesta_k_cieľovému_priečinku/názov_súboru.csv")
Môžete tiež vypočítať centrálne tendencie každého stĺpca v DataFrame pomocou pandy.
Tu je návod, ako získať strednú hodnotu každého stĺpca:
DataFrame.mean()
Pre hodnotu mediánu alebo režimu nahraďte stredný() s medián () alebo režim().
4. DataFrame.transform
pandy DataFrame.transform() upravuje hodnoty DataFrame. Prijíma funkciu ako argument.
Napríklad kód uvedený nižšie vynásobí každú hodnotu v DataFrame tromi použitím Pythonova lambda funkcia:
DataFrame = DataFrame.transform (lambda y: y*3)
tlačiť (DataFrame)
5. DataFrame.isnull
Táto funkcia vráti boolovskú hodnotu a označí všetky riadky obsahujúce nulové hodnoty ako Pravda:
DataFrame.isnull()
Výsledok vyššie uvedeného kódu môže byť pre väčšie množiny údajov ťažko čitateľný. Takže môžete použiť isnull().sum() funkciu. Toto vráti súhrn všetkých chýbajúcich hodnôt pre každý stĺpec:
DataFrame.isnull().sum()
6. Dataframe.info
The Info() funkcia je an nevyhnutná operácia pandy. Namiesto toho vráti súhrn chýbajúcich hodnôt pre každý stĺpec:
DataFrame.info()
7. DataFrame.describe
The opísať () funkcia vám poskytuje súhrnnú štatistiku DataFrame:
DataFrame.describe()
8. DataFrame.replace
Pomocou DataFrame.replace() metódou v pandách môžete nahradiť vybrané riadky inými hodnotami.
Napríklad na výmenu neplatných riadkov s Nan:
# Uistite sa, že ste pip install numpy, aby to fungovalo
import numpy
importovať pandy
# Pridaním kľúčového slova na mieste a jeho nastavením na hodnotu True budú zmeny trvalé:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
tlačiť (DataFrame)
9. DataFrame.fillna
Táto funkcia vám umožňuje vyplniť prázdne riadky konkrétnou hodnotou. Môžete vyplniť všetky Nan riadky v množine údajov so strednou hodnotou, napríklad:
DataFrame.fillna (df.mean(), inplace = True)
tlačiť (DataFrame)
Môžete tiež špecifikovať stĺpce:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
tlačiť (DataFrame)
10. DataFrame.dropna
The dropna() metóda odstráni všetky riadky obsahujúce hodnoty null:
DataFrame.dropna (inplace = True)
tlačiť (DataFrame)
11. DataFrame.insert
Môžete použiť pandy vložiť () funkcia na pridanie nového stĺpca do DataFrame. Akceptuje tri kľúčové slová, názov stĺpca, zoznam jeho údajov a jeho umiestnenie, čo je index stĺpcov.
Funguje to takto:
DataFrame.insert (stĺpec = 'C', hodnota = [3, 4, 6, 7], loc=0)
tlačiť (DataFrame)
Vyššie uvedený kód vloží nový stĺpec na index nula stĺpca (stane sa prvým stĺpcom).
12. DataFrame.loc
Môžeš použiť lok nájsť prvky v konkrétnom indexe. Ak chcete zobraziť všetky položky v treťom riadku, napríklad:
DataFrame.loc[2]
13. DataFrame.pop
Táto funkcia vám umožňuje odstrániť určený stĺpec z dátového rámca pandas.
Prijíma an položka kľúčové slovo, vráti vyskočený stĺpec a oddelí ho od zvyšku DataFrame:
DataFrame.pop (item= 'názov_stĺpca')
tlačiť (DataFrame)
14. DataFrame.max, min
Získanie maximálnych a minimálnych hodnôt pomocou pandy je jednoduché:
DataFrame.min()
Vyššie uvedený kód vráti minimálnu hodnotu pre každý stĺpec. Ak chcete získať maximum, vymeňte min s max.
15. DataFrame.join
The pripojiť sa () funkcia pandas vám umožňuje zlúčiť DataFrames s rôznymi názvami stĺpcov. Môžete použiť ľavé, pravé, vnútorné alebo vonkajšie spojenie. Pre ľavé spojenie DataFrame s dvoma ďalšími:
#Vľavo spojte dlhšie stĺpce s kratšími
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
vytlačiť (newDataFrame)
Ak chcete spojiť DataFrames s podobnými názvami stĺpcov, môžete ich odlíšiť zahrnutím prípony vľavo alebo vpravo. Urobte to zahrnutím lsufix alebo rsufix kľúčové slovo:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
vytlačiť (newDataFrame)
16. DataFrame.combine
The kombinovať () Funkcia sa hodí na zlúčenie dvoch DataFrames obsahujúcich podobné názvy stĺpcov na základe nastavených kritérií. Prijíma a funkciu kľúčové slovo.
Napríklad, ak chcete zlúčiť dva DataFrame s podobnými názvami stĺpcov iba na základe maximálnych hodnôt:
newDataFrame = df.combine (df2, numpy.minimum)
vytlačiť (newDataFrame)
Poznámka: Môžete tiež definovať funkciu vlastného výberu a vložiť numpy.minimálne.
17. DataFrame.astype
The astype() funkcia zmení typ údajov konkrétneho stĺpca alebo DataFrame.
Ak chcete zmeniť všetky hodnoty v DataFrame na reťazec, napríklad:
DataFrame.astype (str)
18. DataFrame.sum
The suma() funkcia v pandách vracia súčet hodnôt v každom stĺpci:
DataFrame.sum()
Môžete tiež nájsť kumulatívny súčet všetkých položiek pomocou cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandy pokles() funkcia vymaže konkrétne riadky alebo stĺpce v DataFrame. Ak ho chcete použiť, musíte zadať názvy stĺpcov alebo index riadkov a os.
Ak chcete odstrániť konkrétne stĺpce, napríklad:
df.drop (columns=['colum1', 'column2'], axis=0)
Ak chcete napríklad vypustiť riadky na indexoch 1, 3 a 4:
df.drop([1, 3, 4], os=0)
20. DataFrame.corr
Chcete nájsť koreláciu medzi celočíselnými alebo pohyblivými stĺpcami? pandy vám to môžu pomôcť dosiahnuť pomocou corr() funkcia:
DataFrame.corr()
Vyššie uvedený kód vráti nový DataFrame obsahujúci korelačnú sekvenciu medzi všetkými celočíselnými alebo pohyblivými stĺpcami.
21. DataFrame.add
The pridať () funkcia vám umožňuje pridať konkrétne číslo ku každej hodnote v DataFrame. Funguje tak, že iteruje cez DataFrame a funguje na každej položke.
Súvisiace:Ako používať slučky v Pythone
Ak chcete pridať 20 ku každej z hodnôt v konkrétnom stĺpci obsahujúcom celé čísla alebo plávajúce čísla, napríklad:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Rovnako ako funkcia sčítania môžete tiež odpočítať číslo od každej hodnoty v dátovom rámci alebo v konkrétnom stĺpci:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Toto je multiplikačná verzia funkcie pridávania pand:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Podobne môžete rozdeliť každý údajový bod v stĺpci alebo údajovom rámci konkrétnym číslom:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Pomocou std() Funkcia pandas vám tiež umožňuje vypočítať štandardnú odchýlku pre každý stĺpec v DataFrame. Funguje tak, že prejde každý stĺpec v množine údajov a vypočíta štandardnú odchýlku pre každý:
DataFrame.std()
26. DataFrame.sort_values
Hodnoty môžete triediť aj vzostupne alebo zostupne na základe konkrétneho stĺpca. Ak chcete zoradiť DataFrame v zostupnom poradí, napríklad:
newDataFrame = DataFrame.sort_values (podľa = "colmun_name", zostupne = True)
27. DataFrame.melt
The roztopiť sa () funkcia v pandách prevráti stĺpce v DataFrame na jednotlivé riadky. Je to ako odhalenie anatómie DataFrame. Umožňuje vám teda explicitne zobraziť hodnotu priradenú ku každému stĺpcu.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Táto funkcia vráti celkový počet položiek v každom stĺpci:
DataFrame.count()
29. DataFrame.query
pandy dopyt() umožňuje volať položky pomocou ich indexového čísla. Ak chcete získať položky v treťom riadku, napríklad:
DataFrame.query('4') # Zavolajte dotaz na štvrtý index
30. DataFrame.where
The kde() funkcia je pandas dotaz, ktorý akceptuje podmienku na získanie konkrétnych hodnôt v stĺpci. Napríklad, ak chcete získať všetky vekové kategórie do 30 rokov od an Vek stĺpec:
DataFrame.where (DataFrame['Vek'] < 30)
Vyššie uvedený kód poskytuje výstup DataFrame obsahujúci všetky vekové skupiny mladšie ako 30 rokov, ale priraďuje Nan do riadkov, ktoré nespĺňajú podmienku.
Narábajte s dátami ako profesionál s pandami
pandas je pokladnicou funkcií a metód na prácu s malými až veľkými súbormi údajov pomocou jazyka Python. Knižnica sa hodí aj na čistenie, overovanie a prípravu údajov na analýzu alebo strojové učenie.
Ak si nájdete čas na to, aby ste si to osvojili, rozhodne vám to uľahčí život ako dátovému vedcovi a stojí to za námahu. Takže si pokojne vyberte všetky funkcie, ktoré zvládnete.
Štandardná knižnica Pythonu obsahuje mnoho funkcií, ktoré vám pomôžu s vašimi programovacími úlohami. Získajte informácie o najužitočnejších a vytvorte robustnejší kód.
Prečítajte si ďalej
- Programovanie
- Python
- Programovanie
- databázy
Idowu je nadšený z akejkoľvek inteligentnej technológie a produktivity. Vo voľnom čase sa hrá s kódovaním a keď sa nudí, prepne na šachovnicu, no tiež sa rád raz za čas odtrhne od rutiny. Jeho vášeň ukázať ľuďom cestu okolo moderných technológií ho motivuje k ďalšiemu písaniu.
prihlásiť sa ku odberu noviniek
Pripojte sa k nášmu bulletinu a získajte technické tipy, recenzie, bezplatné e-knihy a exkluzívne ponuky!
Kliknutím sem sa prihlásite na odber