Využite knižnicu PandasAI Python na využitie sily umelej inteligencie a veľkých jazykových modelov na vykonávanie úloh analýzy údajov.

Pandas je najrozšírenejšou knižnicou na manipuláciu s dátovými súbormi a dátovými rámcami. Toto je už dlho normou. S pokrokom v oblasti umelej inteligencie sa však vyvinula nová knižnica s otvoreným zdrojom s názvom PandasAI, ktorá do Pandas pridáva generatívne možnosti AI.

PandasAI nenahrádza Pandy. Namiesto toho poskytuje svoje generatívne schopnosti AI. Týmto spôsobom môžete vykonávať analýzu údajov chatovaním s PandasAI. Potom abstrahuje, čo sa deje na pozadí, a poskytuje vám výstup vášho dotazu.

Inštalácia PandasAI

PandasAI je k dispozícii prostredníctvom PyPI (Python Package Index). Vytvorte nové virtuálne prostredie ak používate lokálne IDE. Potom použite správcu balíkov pip aby ste ho nainštalovali.

pip install pandasai

Ak používate službu Google Colab, môže sa vyskytnúť chyba konfliktu závislostí podobná tej, ktorá je uvedená nižšie.

Neupgradujte verziu IPythonu. Stačí reštartovať runtime a znova spustiť blok kódu. Týmto sa problém vyrieši.

instagram viewer

Úplný zdrojový kód je dostupný v a úložisko GitHub.

Pochopenie vzorového súboru údajov

Vzorový súbor údajov, s ktorým budete manipulovať pomocou PandasAI, je súbor údajov o cenách ubytovania v Kalifornii od spoločnosti Kaggle. Tento súbor údajov obsahuje informácie o bývaní zo sčítania ľudu v roku 1990 v Kalifornii. Má desať stĺpcov, ktoré poskytujú štatistiky o týchto domoch. Dátová karta, ktorá vám pomôže dozvedieť sa viac o tomto súbore údajov, je k dispozícii na Kaggle. Nižšie je uvedených prvých päť riadkov množiny údajov.

Každý stĺpec predstavuje jednu štatistiku domu.

Pripojenie PandasAI k veľkému jazykovému modelu

Ak chcete pripojiť PandasAI k a veľký jazykový model (LLM) ako v prípade OpenAI, potrebujete prístup k jeho kľúču API. Ak ho chcete získať, prejdite na stránku Platforma OpenAI. Potom sa prihláste do svojho účtu. Vyberte API pod stránkou možností, ktorá sa zobrazí ďalej.

Potom kliknite na svoj profil a vyberte Zobraziť kľúče API možnosť. Na stránke, ktorá sa zobrazí ďalej kliknite Vytvorte nový tajný kľúč tlačidlo. Nakoniec pomenujte svoj API kľúč.

OpenAI vygeneruje váš kľúč API. Skopírujte si ho, ako ho budete potrebovať pri pripájaní PandasAI k OpenAI. Uistite sa, že kľúč uchovávate v tajnosti, pretože ktokoľvek, kto k nemu má prístup, môže vo vašom mene uskutočňovať hovory do OpenAI. OpenAI potom bude účtovať váš účet za hovory.

Teraz, keď máte kľúč API, vytvorte nový skript Python a prilepte kód nižšie. Tento kód nebudete musieť meniť, pretože väčšinu času na ňom budete stavať.

importovať pandy ako pd
od pandasai importovať PandasAI

# Nahraďte svojim dátovým súborom alebo dátovým rámcom
df = pd.read_csv("/content/housing.csv")

# Založte si LLM
od pandasai.llm.openai importovať OpenAI
llm = OpenAI(api_token="váš token API")

pandas_ai = PandasAI(llm)

Vyššie uvedený kód importuje PandasAI aj Pandas. Potom načíta súbor údajov. Nakoniec vytvára instanciu OpenAI LLM.

Teraz ste pripravení konverzovať so svojimi údajmi.

Vykonávanie jednoduchých úloh pomocou PandasAI

Ak chcete dopytovať svoje údaje, odovzdajte svoj údajový rámec a výzvu inštancii triedy PandasAI. Začnite vytlačením prvých piatich riadkov vašej množiny údajov.

pandas_ai (df, prompt="Akých je prvých päť riadkov množiny údajov?")

Výstup vyššie uvedenej výzvy je nasledujúci:

Tento výstup je identický s výstupom z prehľadu množiny údajov vyššie. To ukazuje, že PandasAI poskytuje správne výsledky a je spoľahlivý.

Potom skontrolujte počet stĺpcov prítomných vo vašej množine údajov.

pandas_ai (df, prompt=„Koľko stĺpcov je v množine údajov? ')

Vráti 10, čo je správny počet stĺpcov v súbore údajov o bývaní v Kalifornii.

Kontrola, či v množine údajov chýbajú hodnoty.

pandas_ai (df, prompt="Chýbajú v súbore údajov nejaké hodnoty?")

PandasAI vráti, že celkove_izby má 207 chýbajúcich hodnôt, čo je opäť správne.

Existuje veľa jednoduchých úloh, ktoré môžete dosiahnuť pomocou PandasAI, nie ste obmedzení na tie vyššie.

Vykonávanie zložitých dopytov pomocou PandasAI

PandasAI nepodporuje len jednoduché úlohy. Môžete ho použiť aj na vykonávanie zložitých dotazov na súbor údajov. Napríklad v súbore údajov o bývaní, ak chcete určiť počet domov, ktoré sa nachádzajú na ostrov, majú hodnotu viac ako 100 000 dolárov a majú viac ako 10 izieb, môžete použiť výzvu nižšie.

pandas_ai (df, prompt= "Koľko domov má hodnotu väčšiu ako 100 000,"
"ste na ostrove a celkový počet spální je viac ako 10?")

Správny výstup je päť. Toto je rovnaký výsledok, aký poskytuje PandasAI.

Napísanie a ladenie zložitých dotazov môže dátovým analytikom nejaký čas trvať. Vyššie uvedená výzva vyžaduje iba dva riadky prirodzeného jazyka na splnenie rovnakej úlohy. Musíte mať na mysli presne to, čo chcete dosiahnuť, a PandasAI sa postará o zvyšok.

Kreslenie máp pomocou PandasAI

Grafy sú dôležitou súčasťou každého procesu analýzy údajov. Pomáha dátovým analytikom vizualizovať dáta spôsobom priateľským k človeku. PandasAI má tiež funkciu kreslenia grafov. Musíte len odovzdať dátový rámec a inštrukciu.

Začnite vytvorením histogramu pre každý stĺpec v množine údajov. To vám pomôže vizualizovať distribúciu premenných.

pandas_ai (df, prompt= "Vykresliť histogram pre každý stĺpec v množine údajov")

Výstup je nasledovný:

PandasAI dokázala nakresliť histogram všetkých stĺpcov bez toho, aby museli zadať ich mená do výzvy.

PandasAI môže tiež vykresľovať grafy bez toho, aby ste mu výslovne povedali, ktorý graf má použiť. Môžete napríklad chcieť zistiť koreláciu údajov v súbore údajov o bývaní. Aby ste to dosiahli, môžete odoslať výzvu nasledovne:

pandas_ai (df, prompt= "Zakreslite koreláciu do súboru údajov")

PandasAI vykresľuje korelačnú maticu, ako je uvedené nižšie:

Knižnica vyberie teplotnú mapu a vykreslí korelačnú maticu.

Odovzdanie viacerých dátových rámcov do inštancie PandasAI

Práca s viacerými dátovými rámcami môže byť zložitá. Najmä pre osobu, ktorá je nováčikom v oblasti analýzy údajov. PandasAI premosťuje túto medzeru, pretože všetko, čo musíte urobiť, je prejsť oba dátové rámce a začať používať výzvy na manipuláciu s údajmi.

Vytvorte dva dátové rámce pomocou Pandas.

zamestnanec_data = {
'Identifikačné číslo zamestnanca': [1, 2, 3, 4, 5],
'Názov': ['John', 'emma', 'Liam', 'Olivia', 'William'],
'oddelenie': ['HR', 'predaj', 'IT', 'marketing', 'financie']
}

mzdové_údaje = {
'Identifikačné číslo zamestnanca': [1, 2, 3, 4, 5],
'plat': [5000, 6000, 4500, 7000, 5500]
}

zamestnanci_df = pd. DataFrame (employees_data)
platy_df = pd. DataFrame (salaries_data)

Môžete položiť PandasAI otázku, ktorá sa týka oboch dátových rámcov. Musíte iba odovzdať oba dátové rámce inštancii PandasAI.

pandas_ai([employees_df, platy_df], "Ktorý zamestnanec má najväčší plat?")

Vracia sa Olivia čo je opäť správna odpoveď.

Vykonávanie analýzy údajov nebolo nikdy jednoduchšie, PandasAI vám umožňuje chatovať s vašimi údajmi a jednoducho ich analyzovať.

Pochopenie technológie, ktorá poháňa PandasAI

PandasAI zjednodušuje proces analýzy údajov, čím šetrí analytikom údajov veľa času. Ale abstrahuje to, čo sa deje v pozadí. Musíte sa zoznámiť s generatívnou AI, aby ste mali prehľad o tom, ako PandasAI funguje pod kapotou. To vám tiež pomôže držať krok s najnovšími inováciami v oblasti generatívnej AI.