Internetová filmová databáza (IMDb) je najväčšia online databáza obsahujúca informácie týkajúce sa filmov, televíznych seriálov, domácich videí, videohier a streamovaného obsahu. Online databáza obsahuje milióny presných záznamov, ktoré môžete použiť na analýzu údajov.
Cinemagoer (predtým známy ako IMDbPY) je knižnica Python na správu a získavanie údajov z filmovej databázy IMDb. Môžete pristupovať k údajom o filmoch, ľuďoch a spoločnostiach, ktoré možno ďalej použiť na analýzu.
Inštalácia požadovaných knižníc
Musíte nainštalovať návštevník kina Knižnica Python na prístup k IMDb databázy. Na inštaláciu knižnice spustite nasledujúci príkaz v príkazovom riadku:
pip Inštalácia návštevník kina
Musíš mať pip nainštalovaný vo vašom systéme na inštaláciu externých knižníc Pythonu.
Kód použitý v tomto projekte je dostupný v a úložisko GitHub a môžete ho bezplatne používať na základe licencie MIT.
Extrahovanie údajov IMDb pomocou Pythonu
Pred použitím v kóde musíte knižnicu návštevníkov kina importovať.
od imdb importovať Návštevník kina
ia = Návštevník kina()
Vyššie uvedený kód importuje knižnicu návštevníka kina a vytvorí inštanciu triedy návštevníka kina.
Vyhľadávanie filmov
Filmy s daným (alebo podobným) názvom môžete vyhľadávať pomocou search_movie() metóda. Ak chcete napríklad vyhľadať filmy s názvom „rock“, musíte spustiť nasledujúci kód:
od imdb importovať Návštevník kina
# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()
# Vyhľadávanie filmov, ktoré majú v názve rock
filmy = ia.search_movie('skala')
vytlačiť(filmy[0])
Toto by malo vytlačiť prvý film, ktorý nájde, napríklad:
Film môžete získať podľa jeho IMDb ID. Potom môžete získať ďalšie informácie, ako sú mená režisérov a žánre. Musíte prechádzať zoznamom získať individuálne informácie.
od imdb importovať Návštevník kina
# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()# Získanie filmu podľa IMDb ID
film = ia.get_movie('0468569')
vytlačiť(film)# Tlač mien režisérov filmu
vytlačiť ('Riaditelia:')pre režiséra vo filme['riaditeľov']:
tlač (riaditeľ['názov'])# tlač žánrov filmu
vytlačiť ('Žánre:')
pre žáner vo filme['žánrov']:
vytlačiť(žáner)
Vo výstupe by ste mali vidieť názov daného filmu, jeho režiséra (režisérov) a žánre:
Hľadanie osoby
Môžete vyhľadávať ľudí pomocou hľadať_osobu() metóda. Napríklad, ak chcete vyhľadať „Heath“, musíte spustiť nasledujúci kód:
od imdb importovať Návštevník kina
# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()
# Hľadanie ľudí, ktorí majú vo svojich menách Heatha
osoby = ia.search_person('Heath')
vytlačiť(osoby[0])
Zobrazí sa meno prvej vyhovujúcej osoby, ktorú vyhľadávanie nájde:
Hľadanie spoločností
Spoločnosti môžete vyhľadávať pomocou search_company() metóda. Napríklad, ak chcete vyhľadať „Universal“, musíte spustiť nasledujúci kód:
od imdb importovať Návštevník kina
# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()
# Vyhľadávanie spoločností, ktoré majú v názve Universal
spoločnosti = ia.search_company('Univerzálny')
vytlačiť(spoločnosti)
Dostanete zoznam všetkých spoločností, ktoré majú v názve Universal.
Môžete tiež získať údaje o osobe a spoločnosti pomocou jej ID.
od imdb importovať Návštevník kina
# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()# Získavanie osobných údajov podľa ID
osoba = ia.get_person('0005132')
vytlačiť (osoba['názov'])
vytlačiť (osoba['dátum narodenia'])
# Získavanie údajov spoločnosti podľa ID
spoločnosť = ia.get_company('0005073')
tlač (spoločnosť['názov'])
Výstup zobrazí podrobnosti o osobe a názov spoločnosti:
Hľadanie vrchných a spodných filmov
Údaje pre 250 najlepších a 100 najnižších videozáznamov môžete získať pomocou get_top250_movies() a get_bottom100_movies() metódy, resp.
od imdb importovať Návštevník kina
# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()# Nájdenie 250 najlepších filmov
top = ia.get_top250_movies()
vytlačiť(hore[0])
# Nájdenie 100 spodných filmov
bottom = ia.get_bottom100_movies()
vytlačiť(dole[0])
Ako odpoveď uvidíte názov najlepšieho filmu a názov najhoršieho:
Knižnica pre návštevníkov kina poskytuje aj niektoré ďalšie metódy, napr get_top250_tv(), get_popular100_movies(), a get_top250_indian_movies().
Analýza údajov je vyhodnotenie údajov pomocou analytických alebo štatistických nástrojov na extrakciu informácií. Popularita analýzy údajov každým dňom rastie. Teraz ho používajú podniky, marketingové spoločnosti a športové tímy. Kompletný proces analýzy údajov zahŕňa definovanie cieľov, kladenie otázok, zber údajov, čistenie údajov, analýzu údajov a záverečné výsledky.
Súbory údajov pre svoje projekty môžete získať pomocou knižníc Pythonu, ako je Cinemagoer, alebo prostredníctvom online platforiem, ako je Kaggle. Okrem úplných jazykov, ako sú Python a R, môžete na analýzu údajov použiť ďalšie nástroje, ako sú Microsoft Excel, Tableau a Stata.