Ak ste študent alebo vaša práca zahŕňa prácu s množstvom obrázkov a súborov PDF, v určitom okamihu by ste pocítili potrebu extrahovať text z obrázka alebo dokumentu.
Našťastie to umožňuje extrakcia textu. A existuje niekoľko nástrojov, ktoré na to môžete použiť. gImageReader je jedným z mnohých nástrojov. Je zadarmo na použitie a pracuje s obrazovými súbormi aj dokumentmi PDF.
Poďme sa ponoriť, aby sme si podrobne vyskúšali gImageReader a zistili, ako ho môžete použiť na extrahovanie textu z obrázkov a súborov PDF.
Čo je gImageReader?
gImageReader je aplikácia, ktorá vám umožňuje extrahovať text z obrázkov a súborov PDF v systéme Linux. Je to v podstate GUI alebo front-end OCR engine Tesseract, an open-source motor vyvinutý spoločnosťou Hewlett-Packard, ktorý je považovaný za jeden z najlepších dostupných OCR motorov.
Pomocou gImageReader môžete jednoducho a pomerne presne extrahovať text z obrázkov alebo dokumentov PDF niekoľkými jednoduchými kliknutiami. Extrahovaný text potom môžete exportovať do textového alebo PDF súboru na ďalšie použitie.
Vlastnosti programu gImageReader
gImageReader obsahuje nasledujúce funkcie:
- Importujte dokumenty a obrázky PDF z rôznych zdrojov (disk, skenovacie zariadenia, schránka a snímka obrazovky)
- Dávkové spracovanie obrázkov alebo dokumentov, t. j. extrahovanie textu z viacerých obrázkov alebo dokumentov naraz
- Rozpoznajte úryvky textu ako obyčajný text alebo dokumenty hOCR
- Zabudovaná kontrola pravopisu
- Automatická detekcia textovej oblasti
- Základná úprava obrázkov/dokumentov
- Uložte výstup ako textový súbor
Ako nainštalovať gImageReader v systéme Linux
gImageReader je k dispozícii na väčšina hlavných distribúcií Linuxu. Ale predtým, ako budete pokračovať v jeho inštalácii, musíte do svojho systému nainštalovať nástroj Tesseract OCR.
Ak to chcete urobiť, otvorte Správca softvéru vo vašom systéme a vyhľadajte tesseract. Keď vráti zoznam výsledkov, nainštalujte súbor tesseract-ocr a tesseract-ocr-eng balíkov. Na inštaláciu balíka môžete použiť aj správcov balíkov príkazového riadka, ak vám viac vyhovuje terminál.
Potom si prečítajte pokyny na inštaláciu v nasledujúcich častiach a nainštalujte si gImageReader do počítača.
Ak používate Debian alebo Ubuntu, otvorte terminál a spustite nižšie uvedené príkazy na inštaláciu gImageReader:
sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-dostať aktualizovať
sudo apt Inštalácia čítačka obrázkov
Vo Fedore, CentOS alebo Red Hat Enterprise Linux (RHEL):
sudo dnf Inštalácia gimagereader-qt
Zapnuté Arch Linux alebo Manjaro:
sudo pacman -S čítačka obrázkov
Používatelia openSUSE môžu nainštalovať gImageReader pomocou:
sudo zipper Inštalácia čítačka obrázkov
V prípade, že používate akúkoľvek inú linuxovú distribúciu, môžete gImageReader zostaviť zo zdroja podľa pokynov na GitHub od gImageReader.
Ako používať gImageReader v systéme Linux
gImageReader sa veľmi ľahko používa a pracuje so všetkými druhmi obrazových súborov, ako aj s dokumentmi PDF. Ak chcete extrahovať text z obrázkov alebo súborov PDF v systéme Linux, postupujte podľa pokynov nižšie.
Otvorte ponuku aplikácií, vyhľadajte gImageReadera spustite aplikáciu. Zasiahnite Maximalizovať v okne gImageReader, čím ho otvoríte v zobrazení na celú obrazovku.
Teraz kliknite na Pridajte obrázky na ľavej table pod panelom s nástrojmi a pomocou prehliadača súborov vyberte obrázok (obrázky) alebo súbory PDF, z ktorých chcete extrahovať text.
Kliknite Dobre importovať obrázok(y) alebo PDF(y) do gImageReader. Alebo, ak chcete extrahovať text z toho, čo sa zobrazuje na obrazovke, kliknite na rozbaľovaciu ponuku vedľa položky Pridajte obrázky tlačidlo a vyberte Urobiť fotku obrazovky. gImageReader vytvorí snímku obrazovky obsahu obrazovky.
Po pridaní obrázka do gImageReader kliknite na Prepnúť výstupný panel tlačidlo (jedno s ikonou poznámkového bloku), čím vyvoláte výstupný panel. Tu sa zobrazí text, ktorý extrahujete z obrázkov alebo súborov PDF.
Podľa toho, ako chcete postupovať, máte teraz možnosť identifikovať text v obrázku alebo PDF automaticky alebo manuálne. Ak to chcete urobiť automaticky, kliknite na Automaticky zistiť rozloženie a zvýrazní všetky textové bloky vo vybranom obrázku alebo dokumente PDF.
Potom klepnite na Rozpoznať výber > Aktuálna stránka na spustenie procesu extrakcie textu.
Prípadne, ak chcete text vybrať manuálne, umiestnite kurzor myši na text, ktorý chcete extrahovať, a pomocou nitkového kríža nakreslite rámček okolo oblasti, z ktorej chcete text extrahovať. Potom stlačte Rozpoznať výber tlačidlo pre pokračovanie.
Ak je to dokument PDF a chcete extrahovať text z rôznych strán, klepnite na Plus (+) na prevrátenie strán.
Ak sa chcete vrátiť, stlačte tlačidlo Mínus (-) tlačidlo. Potom vyberte text, ktorý chcete extrahovať, a stlačte tlačidlo Rozpoznať výber tlačidlo na jeho extrahovanie.
Aj keď je to zriedkavé, môžu sa vyskytnúť prípady, keď gImageReader vráti extrahovaný text v inom jazyku ako v angličtine. Keď sa to stane, jednoducho klepnite na rozbaľovacie tlačidlo vedľa Rozpoznať výber a vyberte jednu z anglických možností.
Nakoniec, ak chcete extrahovaný text uložiť, kliknite na Uložiť výstup tlačidlo. Tým sa zobrazí okno Uložiť. Tu zadajte názov súboru a stlačte Dobre.
Čo ešte môžete robiť s gImageReader?
Ako už bolo spomenuté, gImageReader vám tiež dáva možnosť upraviť určité aspekty importovaných obrázkov alebo dokumentov, ako je ich jas, kontrast a rozlíšenie. Okrem toho môžete v prípade potreby aj invertovať farby alebo otáčať obrázky alebo dokumenty.
Väčšina z týchto možností sa môže ukázať ako užitočná, keď text na obrázku alebo dokumente nie je čitateľný pre gImageReader, a preto nástroju bránia v rozpoznaní textu.
Ak chcete získať prístup k niektorej z týchto možností úprav, kliknite na Ovládanie obrazu a pod hlavným panelom nástrojov sa zobrazí mini panel s nástrojmi. Odtiaľ vyberte príslušné tlačidlá na vykonanie požadovanej operácie úprav na obrázku alebo dokumente.
Extrakcia textu na Linuxe je jednoduchá s gImageReader
Extrakcia textu často vyžaduje správny nástroj: taký, ktorý využíva spoľahlivý a presný OCR engine, ktorý umožňuje efektívne identifikovať text v obrázku alebo dokumente, takže ho môžete efektívne extrahovať bez akéhokoľvek trápenie.
gImageReader to robí pekne, vďaka nástroju Tesseract OCR, ktorý používa na pozadí. Vzhľadom na jednoduchosť použitia je gImageReader nepochybne jedným z najlepších nástrojov na extrakciu textu dostupných pre Linux.
Prípadne, ak hľadáte jednoduchšie riešenie, môžete vyskúšať TextSnatcher, ktorý je rýchly a celkom jednoduchý na používanie.