Internetová filmová databáza (IMDb) je najväčšia online databáza obsahujúca informácie týkajúce sa filmov, televíznych seriálov, domácich videí, videohier a streamovaného obsahu. Online databáza obsahuje milióny presných záznamov, ktoré môžete použiť na analýzu údajov.

Cinemagoer (predtým známy ako IMDbPY) je knižnica Python na správu a získavanie údajov z filmovej databázy IMDb. Môžete pristupovať k údajom o filmoch, ľuďoch a spoločnostiach, ktoré možno ďalej použiť na analýzu.

Inštalácia požadovaných knižníc

Musíte nainštalovať návštevník kina Knižnica Python na prístup k IMDb databázy. Na inštaláciu knižnice spustite nasledujúci príkaz v príkazovom riadku:

pip Inštalácia návštevník kina

Musíš mať pip nainštalovaný vo vašom systéme na inštaláciu externých knižníc Pythonu.

Kód použitý v tomto projekte je dostupný v a úložisko GitHub a môžete ho bezplatne používať na základe licencie MIT.

Extrahovanie údajov IMDb pomocou Pythonu

Pred použitím v kóde musíte knižnicu návštevníkov kina importovať.

instagram viewer
od imdb importovať Návštevník kina
ia = Návštevník kina()

Vyššie uvedený kód importuje knižnicu návštevníka kina a vytvorí inštanciu triedy návštevníka kina.

Vyhľadávanie filmov

Filmy s daným (alebo podobným) názvom môžete vyhľadávať pomocou search_movie() metóda. Ak chcete napríklad vyhľadať filmy s názvom „rock“, musíte spustiť nasledujúci kód:

od imdb importovať Návštevník kina

# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()

# Vyhľadávanie filmov, ktoré majú v názve rock
filmy = ia.search_movie('skala')
vytlačiť(filmy[0])

Toto by malo vytlačiť prvý film, ktorý nájde, napríklad:

Film môžete získať podľa jeho IMDb ID. Potom môžete získať ďalšie informácie, ako sú mená režisérov a žánre. Musíte prechádzať zoznamom získať individuálne informácie.

od imdb importovať Návštevník kina

# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()

# Získanie filmu podľa IMDb ID
film = ia.get_movie('0468569')
vytlačiť(film)

# Tlač mien režisérov filmu
vytlačiť ('Riaditelia:')

pre režiséra vo filme['riaditeľov']:
tlač (riaditeľ['názov'])

# tlač žánrov filmu
vytlačiť ('Žánre:')

pre žáner vo filme['žánrov']:
vytlačiť(žáner)

Vo výstupe by ste mali vidieť názov daného filmu, jeho režiséra (režisérov) a žánre:

Hľadanie osoby

Môžete vyhľadávať ľudí pomocou hľadať_osobu() metóda. Napríklad, ak chcete vyhľadať „Heath“, musíte spustiť nasledujúci kód:

od imdb importovať Návštevník kina

# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()

# Hľadanie ľudí, ktorí majú vo svojich menách Heatha
osoby = ia.search_person('Heath')
vytlačiť(osoby[0])

Zobrazí sa meno prvej vyhovujúcej osoby, ktorú vyhľadávanie nájde:

Hľadanie spoločností

Spoločnosti môžete vyhľadávať pomocou search_company() metóda. Napríklad, ak chcete vyhľadať „Universal“, musíte spustiť nasledujúci kód:

od imdb importovať Návštevník kina

# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()

# Vyhľadávanie spoločností, ktoré majú v názve Universal
spoločnosti = ia.search_company('Univerzálny')
vytlačiť(spoločnosti)

Dostanete zoznam všetkých spoločností, ktoré majú v názve Universal.

Môžete tiež získať údaje o osobe a spoločnosti pomocou jej ID.

od imdb importovať Návštevník kina

# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()

# Získavanie osobných údajov podľa ID
osoba = ia.get_person('0005132')
vytlačiť (osoba['názov'])
vytlačiť (osoba['dátum narodenia'])

# Získavanie údajov spoločnosti podľa ID
spoločnosť = ia.get_company('0005073')
tlač (spoločnosť['názov'])

Výstup zobrazí podrobnosti o osobe a názov spoločnosti:

Hľadanie vrchných a spodných filmov

Údaje pre 250 najlepších a 100 najnižších videozáznamov môžete získať pomocou get_top250_movies() a get_bottom100_movies() metódy, resp.

od imdb importovať Návštevník kina

# Vytvorenie inštancie triedy Cinemagoer
ia = Návštevník kina()

# Nájdenie 250 najlepších filmov
top = ia.get_top250_movies()
vytlačiť(hore[0])

# Nájdenie 100 spodných filmov
bottom = ia.get_bottom100_movies()
vytlačiť(dole[0])

Ako odpoveď uvidíte názov najlepšieho filmu a názov najhoršieho:

Knižnica pre návštevníkov kina poskytuje aj niektoré ďalšie metódy, napr get_top250_tv(), get_popular100_movies(), a get_top250_indian_movies().

Analýza údajov je vyhodnotenie údajov pomocou analytických alebo štatistických nástrojov na extrakciu informácií. Popularita analýzy údajov každým dňom rastie. Teraz ho používajú podniky, marketingové spoločnosti a športové tímy. Kompletný proces analýzy údajov zahŕňa definovanie cieľov, kladenie otázok, zber údajov, čistenie údajov, analýzu údajov a záverečné výsledky.

Súbory údajov pre svoje projekty môžete získať pomocou knižníc Pythonu, ako je Cinemagoer, alebo prostredníctvom online platforiem, ako je Kaggle. Okrem úplných jazykov, ako sú Python a R, môžete na analýzu údajov použiť ďalšie nástroje, ako sú Microsoft Excel, Tableau a Stata.