Pandas je open-source Python knižnica používaná hlavne na manipuláciu a analýzu údajov. Je postavená na knižnici NumPy a poskytuje vysokovýkonné, ľahko použiteľné dátové štruktúry a nástroje na analýzu dát pre programovací jazyk Python.
V tomto článku sa dozviete, ako vykonať 6 základných operácií pomocou Pandy.
Príklady použitia Pandy
Príklady v tomto článku môžete spustiť pomocou výpočtových notebookov ako napr Zápisník Jupyter, Google Colab, atď. Príklady môžete spustiť aj zadaním kódu priamo do interpreta Pythonu v interaktívnom režime.
Ak sa chcete pozrieť na úplný zdrojový kód použitý v tomto článku, môžete získať prístup k súboru Python Notebook z tohto Úložisko GitHub.
1. Ako importovať pandy ako pd a vytlačiť číslo verzie
Musíte použiť importovať kľúčové slovo na import akejkoľvek knižnice v Pythone. Pandy sa zvyčajne dovážajú pod pd alias. S týmto prístupom môžete označovať balík Pandas ako pd namiesto pandy.
importovať pandy ako pd
vytlačiť (pd.__version__)
Výkon:
1.2.4
2. Ako vytvoriť sériu v Pandas
Séria Pandas je jednorozmerné pole, ktoré obsahuje údaje akéhokoľvek typu. Je to ako stĺpec v tabuľke. Môžete vytvoriť sériu pomocou numpy polí, numpy funkcií, zoznamov, slovníkov, skalárnych hodnôt atď.
Hodnoty série sú označené ich indexovým číslom. Štandardne má prvá hodnota index 0, druhá hodnota má index 1 atď. Ak chcete pomenovať svoje vlastné štítky, musíte použiť index argument.
Ako vytvoriť prázdnu sériu
s = pd. Séria (dtype='float64')
s
Výkon:
Séria([], dtype: float64)
Vo vyššie uvedenom príklade je prázdny rad s plavák vytvorí sa dátový typ.
Ako vytvoriť sériu pomocou NumPy Array
importovať pandy ako pd
import numpy ako np
d = np.array([1, 2, 3, 4, 5])
s = pd. Séria (d)
s
Výkon:
0 1
1 2
2 3
3 4
4 5
dtype: int32
Súvisiace: NumPy operácie pre začiatočníkov
Ako vytvoriť sériu pomocou zoznamu
d = [1, 2, 3, 4, 5]
s = pd. Séria (d)
s
Výkon:
0 1
1 2
2 3
3 4
4 5
dtype: int64
Ako vytvoriť sériu s indexom
Ak chcete vytvoriť sériu s indexom, musíte použiť index argument. Počet indexov sa musí rovnať počtu prvkov v rade.
d = [1, 2, 3, 4, 5]
s = pd. Séria (d, index=["jeden", "dva", "tri", "štyri", "päť"])
s
Výkon:
jeden 1
dve 2
tri 3
štyri 4
päť 5
dtype: int64
Ako vytvoriť sériu pomocou slovníka
Kľúče slovníka sa stávajú štítkami série.
d = {"jeden": 1,
"dva": 2,
"tri": 3,
"štyri": 4,
"päť": 5}
s = pd. Séria (d)
s
Výkon:
jeden 1
dve 2
tri 3
štyri 4
päť 5
dtype: int64
Ako vytvoriť sériu pomocou skalárnej hodnoty
Ak chcete vytvoriť sériu pomocou skalárnej hodnoty, musíte zadať index argument.
s = pd. Séria (1, index = ["a", "b", "c", "d"])
s
Výkon:
1
b 1
c 1
d 1
dtype: int64
3. Ako vytvoriť dátový rámec v Pandas
DataFrame je dvojrozmerná dátová štruktúra, kde sú dáta zarovnané vo forme riadkov a stĺpcov. DataFrame možno vytvoriť pomocou slovníkov, zoznamov, zoznamov slovníkov, numpy polí atď. V reálnom svete sa DataFrames vytvárajú pomocou existujúceho úložiska, ako sú súbory CSV, súbory Excel, databázy SQL atď.
Objekt DataFrame podporuje množstvo atribútov a metód. Ak sa o nich chcete dozvedieť viac, môžete si pozrieť oficiálnu dokumentáciu dátový rámec pandy.
Ako vytvoriť prázdny dátový rámec
df = pd. DataFrame()
tlačiť (df)
Výkon:
Prázdny DataFrame
Stĺpce: []
Index: []
Ako vytvoriť dátový rámec pomocou zoznamu
listObj = ["MUO", "technológia", "zjednodušené"]
df = pd. DataFrame (listObj)
tlačiť (df)
Výkon:
0
0 MUO
1 technológie
2 zjednodušené
Ako vytvoriť DataFrame pomocou slovníka ndarray/Lists
batmanData = {'Názov filmu': ['Batman začína', 'Temný rytier', 'The Dark Knight Rises'],
'Rok vydania': [2005, 2008, 2012]}
df = pd. DataFrame (batmanData)
tlačiť (df)
Výkon:
Názov filmu Rok vydania
0 Batman začína 2005
1 Temný rytier 2008
2 The Dark Knight Rises 2012
Ako vytvoriť dátový rámec pomocou zoznamu zoznamov
údaje = [['Alex', 601], ['Bob', 602], ['Cataline', 603]]
df = pd. DataFrame (údaje, stĺpce = ['Name', 'Roll No.'])
tlačiť (df)
Výkon:
Menný zoznam č.
0 Alex 601
1 Bob 602
2 Cataline 603
Ako vytvoriť DataFrame pomocou zoznamu slovníkov
údaje = [{'Name': 'Alex', 'Roll No.': 601},
{'Name': 'Bob', 'Roll No.': 602},
{'Name': 'Cataline', 'Roll No.': 603}]
df = pd. DataFrame (údaje)
tlačiť (df)
Výkon:
Menný zoznam č.
0 Alex 601
1 Bob 602
2 Cataline 603
Súvisiace: Ako previesť zoznam na slovník v Pythone
Ako vytvoriť DataFrame pomocou funkcie zip().
Použi PSČ() funkcia na zlúčenie zoznamov v Pythone.
Meno = ['Alex', 'Bob', 'Cataline']
Číslo rolky = [601, 602, 603]
listOfTuples = zoznam (zip (meno, číslo rolky))
df = pd. DataFrame (listOfTuples, columns = ['Name', 'Roll No.'])
tlačiť (df)
Výkon:
Menný zoznam č.
0 Alex 601
1 Bob 602
2 Cataline 603
4. Ako čítať údaje CSV v Pandas
Súbor „hodnoty oddelené čiarkou“ (CSV) je textový súbor s oddeľovačmi, ktorý na oddelenie hodnôt používa čiarku. Súbor CSV si môžete prečítať pomocou read_csv() metóda v pandách. Ak chcete vytlačiť celý DataFrame, použite natiahnuť() metóda.
V tomto a nasledujúcich príkladoch toto súbor CSV sa použije na vykonávanie operácií.
df = pd.read_csv(' https://raw.githubusercontent.com/Yuvrajchandra/Basic-Operations-Using-Pandas/main/biostats.csv')
tlačiť (df.to_string())
Výkon:
5. Ako analyzovať dátové rámce pomocou metód head(), tail() a info().
Ako zobraziť údaje pomocou metódy head().
The hlava () metóda je jedným z najlepších spôsobov, ako získať rýchly prehľad o DataFrame. Táto metóda vráti hlavičku a zadaný počet riadkov, počnúc zhora.
df = pd.read_csv(' https://raw.githubusercontent.com/Yuvrajchandra/Basic-Operations-Using-Pandas/main/biostats.csv')
tlač (df.head (10))
Výkon:
Ak nezadáte počet riadkov, vráti sa prvých 5 riadkov.
df = pd.read_csv(' https://raw.githubusercontent.com/Yuvrajchandra/Basic-Operations-Using-Pandas/main/biostats.csv')
tlač (df.head())
Výkon:
Ako zobraziť údaje pomocou metódy tail().
The chvost() metóda vráti hlavičku a zadaný počet riadkov, počnúc zdola.
df = pd.read_csv(' https://raw.githubusercontent.com/Yuvrajchandra/Basic-Operations-Using-Pandas/main/biostats.csv')
tlač (df.tail (10))
Výkon:
Ak nezadáte počet riadkov, vráti sa posledných 5 riadkov.
df = pd.read_csv(' https://raw.githubusercontent.com/Yuvrajchandra/Basic-Operations-Using-Pandas/main/biostats.csv')
tlač (df.tail())
Výkon:
Ako získať informácie o údajoch
The Info() Metódy vracajú krátke zhrnutie dátového rámca vrátane indexu dtype a stĺpcových dtypes, nenulové hodnoty a využitie pamäte.
df = pd.read_csv(' https://raw.githubusercontent.com/Yuvrajchandra/Basic-Operations-Using-Pandas/main/biostats.csv')
vytlačiť (df.info())
Výkon:
6. Ako čítať údaje JSON v Pandas
JSON (JavaSkript Object Notation) je ľahký formát na výmenu údajov. Súbor JSON si môžete prečítať pomocou read_json() metóda v pandách. Ak chcete vytlačiť celý DataFrame, použite natiahnuť() metóda.
V nižšie uvedenom príklade toto súbor JSON sa používa na vykonávanie operácií.
Súvisiace: Čo je JSON? Laický prehľad
df = pd.read_json(' https://raw.githubusercontent.com/Yuvrajchandra/Basic-Operations-Using-Pandas/main/google_markers.json')
tlačiť (df.to_string())
Výkon:
Obnovte si svoje znalosti Pythonu pomocou vstavaných funkcií a metód
Funkcie pomáhajú skrátiť váš kód a zlepšiť jeho efektivitu. Funkcie a metódy ako znížiť (), rozdeliť (), enumerate(), eval(), okrúhly(), atď. môže váš kód urobiť robustným a ľahko pochopiteľným. Vždy je dobré vedieť o vstavaných funkciách a metódach, pretože môžu do značnej miery zjednodušiť vaše programovacie úlohy.
Štandardná knižnica Pythonu obsahuje mnoho funkcií, ktoré vám pomôžu s vašimi programovacími úlohami. Získajte informácie o najužitočnejších a vytvorte robustnejší kód.
Prečítajte si ďalej
- Programovanie
- Python
- Vývoj webových aplikácií
- Programovanie
- Analýza dát
Yuvraj je študentom informatiky na univerzite v Dillí v Indii. Je nadšený pre Full Stack Web Development. Keď práve nepíše, skúma hĺbku rôznych technológií.
prihlásiť sa ku odberu noviniek
Pripojte sa k nášmu bulletinu a získajte technické tipy, recenzie, bezplatné e-knihy a exkluzívne ponuky!
Ak sa chcete prihlásiť na odber, kliknite sem