Ako extrahovať text z PDF a obrázkov v systéme Linux pomocou gImageReader

Ak ste študent alebo vaša práca zahŕňa prácu s množstvom obrázkov a súborov PDF, v určitom okamihu by ste pocítili potrebu extrahovať text z obrázka alebo dokumentu.

Našťastie to umožňuje extrakcia textu. A existuje niekoľko nástrojov, ktoré na to môžete použiť. gImageReader je jedným z mnohých nástrojov. Je zadarmo na použitie a pracuje s obrazovými súbormi aj dokumentmi PDF.

Poďme sa ponoriť, aby sme si podrobne vyskúšali gImageReader a zistili, ako ho môžete použiť na extrahovanie textu z obrázkov a súborov PDF.

Čo je gImageReader?

gImageReader je aplikácia, ktorá vám umožňuje extrahovať text z obrázkov a súborov PDF v systéme Linux. Je to v podstate GUI alebo front-end OCR engine Tesseract, an open-source motor vyvinutý spoločnosťou Hewlett-Packard, ktorý je považovaný za jeden z najlepších dostupných OCR motorov.

Pomocou gImageReader môžete jednoducho a pomerne presne extrahovať text z obrázkov alebo dokumentov PDF niekoľkými jednoduchými kliknutiami. Extrahovaný text potom môžete exportovať do textového alebo PDF súboru na ďalšie použitie.

instagram viewer

Vlastnosti programu gImageReader

gImageReader obsahuje nasledujúce funkcie:

Importujte dokumenty a obrázky PDF z rôznych zdrojov (disk, skenovacie zariadenia, schránka a snímka obrazovky)
Dávkové spracovanie obrázkov alebo dokumentov, t. j. extrahovanie textu z viacerých obrázkov alebo dokumentov naraz
Rozpoznajte úryvky textu ako obyčajný text alebo dokumenty hOCR
Zabudovaná kontrola pravopisu
Automatická detekcia textovej oblasti
Základná úprava obrázkov/dokumentov
Uložte výstup ako textový súbor

Ako nainštalovať gImageReader v systéme Linux

gImageReader je k dispozícii na väčšina hlavných distribúcií Linuxu. Ale predtým, ako budete pokračovať v jeho inštalácii, musíte do svojho systému nainštalovať nástroj Tesseract OCR.

Ak to chcete urobiť, otvorte Správca softvéru vo vašom systéme a vyhľadajte tesseract. Keď vráti zoznam výsledkov, nainštalujte súbor tesseract-ocr a tesseract-ocr-eng balíkov. Na inštaláciu balíka môžete použiť aj správcov balíkov príkazového riadka, ak vám viac vyhovuje terminál.

Potom si prečítajte pokyny na inštaláciu v nasledujúcich častiach a nainštalujte si gImageReader do počítača.

Ak používate Debian alebo Ubuntu, otvorte terminál a spustite nižšie uvedené príkazy na inštaláciu gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-dostať aktualizovať
sudo apt Inštalácia čítačka obrázkov

Vo Fedore, CentOS alebo Red Hat Enterprise Linux (RHEL):

sudo dnf Inštalácia gimagereader-qt

Zapnuté Arch Linux alebo Manjaro:

sudo pacman -S čítačka obrázkov

Používatelia openSUSE môžu nainštalovať gImageReader pomocou:

sudo zipper Inštalácia čítačka obrázkov

V prípade, že používate akúkoľvek inú linuxovú distribúciu, môžete gImageReader zostaviť zo zdroja podľa pokynov na GitHub od gImageReader.

Ako používať gImageReader v systéme Linux

gImageReader sa veľmi ľahko používa a pracuje so všetkými druhmi obrazových súborov, ako aj s dokumentmi PDF. Ak chcete extrahovať text z obrázkov alebo súborov PDF v systéme Linux, postupujte podľa pokynov nižšie.

Otvorte ponuku aplikácií, vyhľadajte gImageReadera spustite aplikáciu. Zasiahnite Maximalizovať v okne gImageReader, čím ho otvoríte v zobrazení na celú obrazovku.

Teraz kliknite na Pridajte obrázky na ľavej table pod panelom s nástrojmi a pomocou prehliadača súborov vyberte obrázok (obrázky) alebo súbory PDF, z ktorých chcete extrahovať text.

Kliknite Dobre importovať obrázok(y) alebo PDF(y) do gImageReader. Alebo, ak chcete extrahovať text z toho, čo sa zobrazuje na obrazovke, kliknite na rozbaľovaciu ponuku vedľa položky Pridajte obrázky tlačidlo a vyberte Urobiť fotku obrazovky. gImageReader vytvorí snímku obrazovky obsahu obrazovky.

Po pridaní obrázka do gImageReader kliknite na Prepnúť výstupný panel tlačidlo (jedno s ikonou poznámkového bloku), čím vyvoláte výstupný panel. Tu sa zobrazí text, ktorý extrahujete z obrázkov alebo súborov PDF.

Podľa toho, ako chcete postupovať, máte teraz možnosť identifikovať text v obrázku alebo PDF automaticky alebo manuálne. Ak to chcete urobiť automaticky, kliknite na Automaticky zistiť rozloženie a zvýrazní všetky textové bloky vo vybranom obrázku alebo dokumente PDF.

Potom klepnite na Rozpoznať výber > Aktuálna stránka na spustenie procesu extrakcie textu.

Prípadne, ak chcete text vybrať manuálne, umiestnite kurzor myši na text, ktorý chcete extrahovať, a pomocou nitkového kríža nakreslite rámček okolo oblasti, z ktorej chcete text extrahovať. Potom stlačte Rozpoznať výber tlačidlo pre pokračovanie.

Ak je to dokument PDF a chcete extrahovať text z rôznych strán, klepnite na Plus (+) na prevrátenie strán.

Ak sa chcete vrátiť, stlačte tlačidlo Mínus (-) tlačidlo. Potom vyberte text, ktorý chcete extrahovať, a stlačte tlačidlo Rozpoznať výber tlačidlo na jeho extrahovanie.

Aj keď je to zriedkavé, môžu sa vyskytnúť prípady, keď gImageReader vráti extrahovaný text v inom jazyku ako v angličtine. Keď sa to stane, jednoducho klepnite na rozbaľovacie tlačidlo vedľa Rozpoznať výber a vyberte jednu z anglických možností.

Nakoniec, ak chcete extrahovaný text uložiť, kliknite na Uložiť výstup tlačidlo. Tým sa zobrazí okno Uložiť. Tu zadajte názov súboru a stlačte Dobre.

Čo ešte môžete robiť s gImageReader?

Ako už bolo spomenuté, gImageReader vám tiež dáva možnosť upraviť určité aspekty importovaných obrázkov alebo dokumentov, ako je ich jas, kontrast a rozlíšenie. Okrem toho môžete v prípade potreby aj invertovať farby alebo otáčať obrázky alebo dokumenty.

Väčšina z týchto možností sa môže ukázať ako užitočná, keď text na obrázku alebo dokumente nie je čitateľný pre gImageReader, a preto nástroju bránia v rozpoznaní textu.

Ak chcete získať prístup k niektorej z týchto možností úprav, kliknite na Ovládanie obrazu a pod hlavným panelom nástrojov sa zobrazí mini panel s nástrojmi. Odtiaľ vyberte príslušné tlačidlá na vykonanie požadovanej operácie úprav na obrázku alebo dokumente.

Extrakcia textu na Linuxe je jednoduchá s gImageReader

Extrakcia textu často vyžaduje správny nástroj: taký, ktorý využíva spoľahlivý a presný OCR engine, ktorý umožňuje efektívne identifikovať text v obrázku alebo dokumente, takže ho môžete efektívne extrahovať bez akéhokoľvek trápenie.

gImageReader to robí pekne, vďaka nástroju Tesseract OCR, ktorý používa na pozadí. Vzhľadom na jednoduchosť použitia je gImageReader nepochybne jedným z najlepších nástrojov na extrakciu textu dostupných pre Linux.

Prípadne, ak hľadáte jednoduchšie riešenie, môžete vyskúšať TextSnatcher, ktorý je rýchly a celkom jednoduchý na používanie.

About Technology - denizatm.com

Ako extrahovať text z PDF a obrázkov v systéme Linux pomocou gImageReader

Čo je gImageReader?

Vlastnosti programu gImageReader

Ako nainštalovať gImageReader v systéme Linux

Ako používať gImageReader v systéme Linux

Čo ešte môžete robiť s gImageReader?

Extrakcia textu na Linuxe je jednoduchá s gImageReader

Kategórie

Recent Post

5 neuveriteľných hier so sídlom na Divokom západe

Čo je hostiteľský súbor systému Windows? A 6 prekvapivých spôsobov, ako ho použiť

Zostavte si svoj vlastný prispôsobiteľný prenosný a rýchly operačný systém pomocou Slax