Python ako jazyk je nadmieru cenný, najmä ak chcete pracovať so štruktúrovanými údajmi. Keďže ľudia ukladajú veľa údajov do súborov programu Excel, je nevyhnutné zlúčiť viacero súborov, aby ste ušetrili čas a námahu.
Python vám umožňuje urobiť presne to; Bez ohľadu na to, koľko súborov programu Excel chcete skombinovať, môžete to urobiť relatívne jednoducho. Vzhľadom na jeho rozsah knižníc a zdrojov tretích strán môžete importovať a používať mnohostranné nástroje Pythonu na uskutočňovanie svojich ponúk.
V tejto príručke budete musieť nainštalovať a používať knižnice Pandas na import údajov do Pythonu pred ich konsolidáciou.
Nainštalujte knižnice Pandas v Pythone
Pandas je knižnica tretej strany, ktorú si môžete nainštalovať v Pythone. Niektoré IDE už majú v sebe nainštalované Pandy.
Ak používate IDE verzia ktorý sa nedodáva s predinštalovanými Pandami, buďte si istý, že si ho môžete nainštalovať priamo v Pythone.
Tu je postup, ako nainštalovať Pandy:
pip install pandy
Ak používate Jupyter Notebook, môžete si Pandy nainštalovať priamo pomocou
príkaz PIP. Väčšinou, keď ste si nainštalovali Jupyter s Anacondou, existuje veľká šanca, že už budete mať Pandy k dispozícii na priame použitie.Ak nemôžete zavolať Pandy, môžete použiť vyššie uvedený príkaz na ich priamu inštaláciu.
Kombinácia Excel súborov s Pythonom
Najprv musíte vytvoriť priečinok vo vami preferovanom umiestnení so všetkými súbormi programu Excel. Keď je priečinok pripravený, môžete začať písať kód na importovanie knižníc.
V tomto kóde použijete dve premenné:
- pandy: Knižnica Pandas poskytuje dátové rámce na ukladanie súborov programu Excel.
- OS: Knižnica je užitočná na čítanie údajov z priečinka vášho počítača
Ak chcete importovať tieto knižnice, použite tieto príkazy:
Importovať pandy ako pd
Importovať OS
- Importovať: Syntax Pythonu používaná na import knižníc v Pythone
- pandy: Názov knižnice
- pd: Alias odovzdaný knižnici
- OS: Knižnica na prístup k systémovému priečinku
Po importovaní knižníc vytvorte dve premenné na uloženie vstupnej a výstupnej cesty k súboru. Vstupná cesta k súboru je potrebná na prístup k priečinku súborov. Cesta k výstupnému súboru je potrebná, pretože tam bude exportovaný kombinovaný súbor.
Ak používate Python, uistite sa, že ste zmenili spätnú lomku na lomku (\ do /)
input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel súbory/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"
Pripojte / na konci aj na dokončenie ciest.
Súbory priečinka sú dostupné v zozname. Vytvorte zoznam na uloženie všetkých odkazov na súbory vstupného priečinka pomocou listdir funkcia z OS knižnica.
Ak si nie ste istí funkciami dostupnými v rámci knižnice, môžete použiť r funkciu s názvom knižnice. Ak chcete napríklad skontrolovať presnú verziu funkcie listdir, môžete použiť príkaz takto:
dir (OS)
Výstup bude pozostávať zo všetkých súvisiacich funkcií dostupných v knižnici operačného systému. Funkcia listdir je jednou z mnohých funkcií dostupných v rámci tejto knižnice.
Vytvorte novú premennú na uloženie vstupných súborov z priečinka.
excel_file_list = os.listdir (cesta k vstupnému_súboru)
Vytlačte túto premennú, aby ste videli názvy súborov uložených v priečinku. Po použití funkcie tlače sa zobrazia všetky súbory uložené v priečinku.
vytlačiť (zoznam_súborov_excel)
Ďalej musíte pridať nový dátový rámec na uloženie každého súboru Excel. Predstavte si dátový rámec ako kontajner na ukladanie dát. Tu je príkaz na vytvorenie dátového rámca.
df = pd. DataFrame()
- df: Premenná na uloženie hodnoty DataFrame
- pd: Alias pre Knižnica Pandy
- DataFrame: Predvolená syntax na pridanie dátového rámca
Vstupný priečinok má tri .xlsx súbory v tomto príklade. Názvy súborov sú:
Súbor1_excel.xlsx
Súbor2_excel.xlsx
File3_excel.xlsx
Ak chcete otvoriť každý súbor z tohto priečinka, musíte spustiť slučku. Cyklus sa spustí pre každý zo súborov v zozname vytvorenom vyššie.
Môžete to urobiť takto:
pre excel_files v excel_file_list:
Ďalej je potrebné skontrolovať prípony súborov, pretože kód otvorí iba súbory XLSX. Na kontrolu týchto súborov môžete použiť Ak vyhlásenie.
Použi končí s fungujú na tento účel takto:
pre excel_files v excel_file_list:
if excel_files.endswith(.xlsx"):
- excel_files: Zoznam so všetkými hodnotami súboru
- končí: Funkcia na kontrolu prípony súborov
- (.xlsx): Táto hodnota reťazca sa môže meniť v závislosti od toho, čo chcete hľadať
Teraz, keď ste identifikovali súbory programu Excel, môžete vytvoriť nový údajový rámec na čítanie a ukladanie súborov jednotlivo.
pre excel_files v excel_file_list:
if excel_files.endswith(.xlsx"):
df1 = pd.read_excel (cesta k vstupnému_súboru+súbory_excel)
- df1: Nový dátový rámec
- pd: Knižnica Pandy
- read_excel: Funkcia na čítanie súborov programu Excel v knižnici Pandas
- vstupný_súbor_cesta: Cesta k priečinku, kde sú uložené súbory
- excel_files: Akákoľvek premenná, ktorá sa používa v slučke for
Ak chcete začať pridávať súbory, musíte použiť priložiť funkciu.
pre excel_files v excel_file_list:
if excel_files.endswith(.xlsx"):
df1 = pd.read_excel (cesta k vstupnému_súboru+súbory_excel)
df = df.append (df1)
Nakoniec, teraz, keď je konsolidovaný dátový rámec pripravený, môžete ho exportovať do výstupného umiestnenia. V tomto prípade exportujete dátový rámec do súboru XLSX.
df.to_excel (cesta k výstupnému_súboru+"konsolidovaný_súbor.xlsx")
- df: Dátový rámec na export
- vynikať: Príkaz používaný na export údajov
- výstupný_súbor_cesta: Cesta definovaná pre uloženie výstupu
- Consolidated_file.xlsx: Názov konsolidovaného súboru
Teraz sa pozrime na konečný kód:
#Pandas sa používa ako dátový rámec na spracovanie súborov programu Excel
importovať pandy ako pd
import os# zmeňte lomku z „\“ na „/“, ak používate zariadenia so systémom Windows
input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel súbory/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"#vytvor zoznam na uloženie všetkých odkazov na súbory vstupného priečinka pomocou funkcie listdir z knižnice operačného systému.
#Ak chcete zobraziť obsah knižnice (ako funkcia listdir, môžete použiť funkciu dir v názve knižnice).
#Na vypísanie obsahu použite adresár (názov_knižnice).excel_file_list = os.listdir (cesta k vstupnému_súboru)
#po definovaní zoznamu vytlačte všetky súbory uložené v priečinku
excel_file_list#Po otvorení každého súboru použite funkciu pripojenia na začatie konsolidácie údajov uložených vo viacerých súboroch
#vytvorte nový, prázdny dátový rámec na spracovanie importu súborov programu Excel
df = pd. DataFrame()# Spustite cyklus for, aby ste prešli každý súbor v zozname
pre excel_files v excel_file_list:
#skontrolujte iba súbory s príponou .xlsx
if excel_files.endswith(.xlsx"):
#vytvorte nový dátový rámec na čítanie/otváranie každého súboru programu Excel zo zoznamu súborov vytvorených vyššie
df1 = pd.read_excel (cesta k vstupnému_súboru+súbory_excel)
#pripojte každý súbor do pôvodného prázdneho dátového rámca
df = df.append (df1)
#transfer konečný výstup do súboru Excel (xlsx) na výstupnej ceste
df.to_excel (cesta k výstupnému_súboru+"konsolidovaný_súbor.xlsx")
Použitie Pythonu na kombinovanie viacerých excelových zošitov
Python's Pandas je vynikajúci nástroj pre začiatočníkov aj pokročilých používateľov. Knižnicu vo veľkej miere využívajú vývojári, ktorí chcú ovládať Python.
Dokonca aj keď ste začiatočník, môžete mať obrovský úžitok z toho, že sa naučíte nuansy Pandy a ako sa knižnica používa v Pythone.
Zorientujte sa v pandách pomocou týchto operácií pre začiatočníkov.
Prečítajte si ďalej
- Programovanie
- Python
- Microsoft Excel
- Tabuľkový hárok
Gaurav Siyal má dvojročné skúsenosti s písaním písania pre sériu digitálnych marketingových firiem a dokumentov životného cyklu softvéru.
prihlásiť sa ku odberu noviniek
Pripojte sa k nášmu bulletinu a získajte technické tipy, recenzie, bezplatné e-knihy a exkluzívne ponuky!
Ak sa chcete prihlásiť na odber, kliknite sem