Instagram je jednou z najpopulárnejších sociálnych sietí s miliardami používateľov. Každý, od študentov po celebrity, má účty na Instagrame. Verejné údaje z Instagramu môžu mať nesmiernu hodnotu pre firmy, obchodníkov a jednotlivcov. Ktokoľvek môže tieto údaje použiť na analýzu údajov, zacielenie marketingu a generovanie prehľadov.

Python môžete použiť na vytvorenie automatizovaného nástroja, ktorý extrahuje údaje Instagramu.

Inštalácia požadovaných knižníc

Instalátor je knižnica Python, ktorú môžete použiť na extrahovanie verejne dostupných údajov z Instagramu. Môžete pristupovať k údajom, ako sú obrázky, videá, používateľské meno, č. príspevkov, počet sledovateľov, počet sledovaných, bio atď. pomocou Instaladera. Upozorňujeme, že Instaloader nie je žiadnym spôsobom spojený, autorizovaný, udržiavaný ani podporovaný Instagramom.

Ak chcete nainštalovať instaloader cez pip, spustite nasledujúci príkaz:

pip Inštalácia inštalader

Musíš mať pip nainštalovaný vo vašom systéme na inštaláciu externých knižníc Pythonu.

instagram viewer

Ďalej musíte nainštalovať knižnicu Pandas Python. Pandas je knižnica Pythonu, ktorá sa používa hlavne na manipuláciu s údajmi a analýzu údajov. Spustite nasledujúci príkaz a nainštalujte ho:

pip Inštalácia pandy

Teraz ste pripravení začať s nastavovaním kódu a načítavaním údajov z Instagramu.

Nastavenie kódu

Ak chcete nastaviť nástroj na načítanie údajov Instagramu, musíte importovať knižnicu Instaloader Python a vytvoriť inštanciu triedy Instaloader. Potom musíte poskytnúť instagramový popisovač profilu, z ktorého chcete extrahovať údaje.

Kód Instagram Extractor Python je dostupný v a úložisko GitHub a môžete ho bezplatne používať na základe licencie MIT.

importovať inštalader

# Vytvorenie inštancie triedy Installader
bot = inštalader. Installer()

# Načítanie profilu z rukoväte Instagramu
profil = inštalader. Profile.from_username (bot.context, 'Cristiano')
vytlačiť(profil)

Toto je dobrý prvý krok na kontrolu základnej funkcie. Mali by ste vidieť nejaké zmysluplné údaje bez chýb:

Extrahovanie údajov z profilu

Môžete získať cenné verejne dostupné údaje, ako napríklad používateľské meno, nie. príspevkov, počet sledovateľov, počet sledovateľov, životopis, ID používateľa a externá adresa URL pomocou programu Instalader pomocou niekoľkých riadkov kódu. Musíte poskytnúť iba rukoväť profilu Instagram.

importovať inštalader
importovať pandy ako pd

# Vytvorenie inštancie triedy Installader
bot = inštalader. Installer()

# Načítanie profilu z rukoväte Instagramu
profil = inštalader. Profile.from_username (bot.context, 'leomessi')
vytlačiť ("Používateľské meno: ", profil.používateľské meno)
vytlačiť ("ID používateľa: ", profil.užívateľské id)
vytlačiť ("Počet príspevkov: ", profil.mediacount)
vytlačiť ("Počet sledovateľov: ", profil.sledovatelia)
vytlačiť ("Nasledujúci počet: ", profile.followees)
vytlačiť ("Životopis: ", profil.biografia)
vytlačiť ("Externá adresa URL: ", profile.external_url)

Mali by ste vidieť veľa informácií o profile z rukoväte, ktorú určíte:

Extrahovanie e-mailov z Bio

E-mailové adresy môžete extrahovať z Insta bio akéhokoľvek profilu pomocou regulárne výrazy. Musíte importovať Python re knižnice a odovzdať regulárny výraz na overenie e-mailu ako parameter do re.findall() metóda:

importovať inštalader
importovať re
# Vytvorenie inštancie triedy Installader
bot = inštalader. Installer()
profil = inštalader. Profile.from_username (bot.context, "bohatstvo")
vytlačiť ("Používateľské meno: ", profil.používateľské meno)
vytlačiť ("Životopis: ", profil.biografia)
e-maily = re.findall (r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b", profil.biografia)
print("E-maily boli extrahované od životopis :)
vytlačiť(e-maily)

Skript vytlačí všetko, čo v životopise rozpozná ako e-mailovú adresu:

Extrahovanie údajov o najlepších výsledkoch vyhľadávania

Keď hľadáte čokoľvek na Instagrame, dostanete niekoľko výsledkov vrátane používateľských mien a hashtagov. Najlepšie výsledky vyhľadávania môžete extrahovať pomocou get_profiles() a get_hashtags() metódy. Stačí zadať vyhľadávací dopyt v inštalader. TopSearchResults() metóda. Ďalej môžete jednotlivé výsledky opakovať a tlačiť/ukladať.

importovať inštalader

# Vytvorenie inštancie triedy Installader
bot = inštalader. Installer()

# Tu zadajte vyhľadávací dopyt
search_results = instaloader. TopSearchResults (bot.context, 'hudba')

# Iterácia extrahovaných používateľských mien
preužívateľské menovVýsledky vyhľadávania.get_profiles():
vytlačiť(používateľské meno)

# Iterácia extrahovaných hashtagov
premriežkavVýsledky vyhľadávania.get_hashtags():
vytlačiť(mriežka)

Výstup bude obsahovať všetky zodpovedajúce používateľské mená a hashtagy:

Extrahovanie sledovateľov a sledovateľov z účtu

Pomocou Instaladera môžete extrahovať sledovateľov účtu a tých, ktorých sleduje sám. Na získanie týchto údajov budete musieť zadať používateľské meno a heslo Instagramu.

Nikdy nepoužívajte svoje osobné účty na extrahovanie údajov z Instagramu, pretože to môže váš účet dočasne alebo natrvalo zablokovať.

Po vytvorení inštancie triedy Installader musíte zadať svoje používateľské meno a heslo. Je to preto, aby sa robot mohol prihlásiť na Instagram pomocou vášho účtu a získať údaje o sledovateľoch a sledovaných.

Ďalej musíte poskytnúť instagramovú rukoväť cieľového profilu. The get_followers() a get_followees() metódy extrahujú nasledovníkov a nasledovníkov. Používateľské mená sledovateľov a sledovateľov môžete získať pomocou follower.username a followee.username vlastnosti resp.

Ak chcete uložiť výsledky do súboru CSV, najprv musíte údaje skonvertovať do objektu Pandas DataFrame. Použi pd. DataFrame() metóda na konverziu objektu zoznamu na DataFrame.

Nakoniec môžete exportovať objekt DataFrame do súboru CSV pomocou to_csv() metóda. Musíte prejsť názov súboru.csv ako parameter tejto metódy na získanie exportovaných údajov vo formáte súboru CSV.

Všetkých sledovateľov a sledovateľov môžu vidieť iba vlastníci účtu. Pomocou tejto alebo inej metódy nebudete môcť extrahovať všetky údaje o sledovateľoch a sledovaných.

# Importovanie knižníc
importovať inštalader
importovať pandy ako pd

# Vytvorenie inštancie triedy Installader
bot = inštalader. Installer()
bot.login (user="Your_username", passwd="Tvoje heslo")

# Načítanie profilu z rukoväte Instagramu
profil = inštalader. Profile.from_username (bot.context, 'Your_target_account_insta_handle')

# Získavanie používateľských mien všetkých sledovateľov
followers = [follower.username pre nasledovníka v profile.get_followers()]

# Konverzia údajov do DataFrame
followers_df = pd. DataFrame (nasledovníci)

# Uloženie výsledkov do súboru CSV
followers_df.to_csv('followers.csv', index=False)

# Získavanie používateľských mien všetkých nasledujúcich používateľov
follows = [followee.username pre sledovaného v profile.get_followees()]

# Konverzia údajov do DataFrame
follows_df = pd. DataFrame (nasledujúce)

# Uloženie výsledkov do súboru CSV
follows_df.to_csv('follows.csv', index=False)

Stiahnite si príspevky z účtu Instagram

Opäť platí, že na sťahovanie príspevkov z ľubovoľného účtu budete musieť zadať používateľské meno a heslo. Je to preto, aby sa robot mohol prihlásiť na Instagram pomocou vášho účtu. Všetky údaje o príspevkoch môžete získať pomocou get_posts() metóda. A môžete opakovať a sťahovať všetky jednotlivé príspevky pomocou download_post() metóda.

# Importovanie knižníc
importovať inštalader
importovať pandy ako pd

# Vytvorte inštanciu triedy Installader
bot = inštalader. Installer()
bot.login (user="Your_username",passwd="Tvoje heslo")

# Načítanie profilu z rukoväte Instagramu
profil = inštalader. Profile.from_username (bot.context, 'Your_target_account_insta_handle')

# Načítanie všetkých príspevkov v objekte
posts = profile.get_posts()

# Iterovanie a sťahovanie všetkých jednotlivých príspevkov
pre index, príspevok v enumerate (príspevky, 1):
bot.download_post (post, target=f"{profile.username}_{index}")

Zoškrabujte web pomocou Pythonu

Zoškrabovanie údajov alebo web scraping je jedným z najbežnejších spôsobov získavania užitočných informácií z webu. Získané údaje môžete použiť na marketing, tvorbu obsahu alebo rozhodovanie.

Python je preferovaný jazyk na zoškrabovanie údajov. Knižnice ako BeautifulSoup, Scrapy a Pandas zjednodušujú extrakciu údajov, analýzu a vizualizáciu.