Ako nainštalovať Tesseract na Windows

Ako Nainstalovat Tesseract Na Windows



Tesseract je voľne dostupný open-source nástroj na rozpoznávanie textu známy aj ako OCR (Optical Character Recognition). Primárne sa používa na identifikáciu a extrahovanie textu z obrázkov. Prečíta text z obrazových údajov a zapíše výstup do nového súboru .txt. Tesseract funguje aj pod Pythonom, pretože sa používa hlavne na rozpoznávanie rukopisu z obrázkov. Využíva model LSTR (Long short-term memory). Tesseract pracuje pod licenciou Apache 2.0.

V tomto blogu podrobne rozvedieme spôsob inštalácie Tesseractu na Windows.







Takže, začnime!



Ako nainštalovať Tesseract na Windows?

Tesseract je nástroj príkazového riadka, ktorý sa používa na extrakciu textu z obrázkov. Ak chcete nainštalovať Tesseract na Windows, musíte postupovať podľa nižšie uvedených pokynov.



Krok 1: Stiahnite si inštalačný program Tesseract





Najprv prejdite na nižšie uvedený odkaz a stiahnite si inštalačný program Tesseract podľa špecifikácie vášho systému:

https: // github.com / UB-Mannheim / tesseract / týždeň



Krok 2: Spustite inštalačný program Tesseract

Navštíviť ' K stiahnutiu ” adresár, do ktorého je stiahnutý inštalačný program Tesseract. Ak chcete nainštalovať Tesseract na Windows, spustite inštalačný program Tesseract dvojitým kliknutím naň:

Krok 3: Vyberte jazyk

Inštalačný program Tesseract podporuje veľa jazykov. Ak chcete pracovať s používateľským rozhraním inštalátora, vyberte „ Angličtina “ ako váš jazyk a kliknite na “ OK “:

Krok 4: Nainštalujte Tesseract

Keď tak urobíte, na obrazovke sa zobrazí sprievodca nastavením Tesseract OCR. Ak chcete spustiť inštaláciu Tesseractu, stlačte „ Ďalšie tlačidlo ”:

Ak chcete prijať „ Licenčná zmluva “, kliknite na „ Súhlasím tlačidlo ”:

Vyberte možnosť „ Inštalácia pre každého, kto používa tento počítač “ a stlačte tlačidlo “ Ďalšie tlačidlo ”:

Ak chcete pridať údaje skriptu alebo pridať iný jazyk, označte ich príslušné začiarkavacie políčka a stlačte „ Ďalšie tlačidlo “. Keďže nechceme žiadne ďalšie dátové skripty ani jazyk, budeme pokračovať s predvolenými vybratými možnosťami:

Vyberte miesto inštalácie a kliknite na „ Ďalšie tlačidlo ”:

Ak nechcete vytvoriť odkaz v ponuke Štart, označte „ Nevytvárajte skratky “ a stlačte tlačidlo “ Inštalácia tlačidlo ”:

Potom sa spustí inštalácia Tesseract. Počkajte na dokončenie inštalácie a stlačte tlačidlo „ Ďalšie tlačidlo ”:

Nakoniec kliknite na „ Skončiť tlačidlo ”:

Krok 5: Nastavte premennú prostredia

Po inštalácii musíte nastaviť premennú prostredia Tesseract. Ak to chcete urobiť, najskôr navštívte adresár, do ktorého ste nainštalovali Tesseract a skopírujte cestu z „ Adresa ”bar:

Vyhľadajte „ Premenné prostredia “ v „ Začiatok “ menu a otvorte “ Upravte systémové premenné prostredia “:

V nastaveniach prejdite na „ Pokročilé ” menu nastavení a kliknite na “ Premenné prostredia tlačidlo ”:

Vyber ' Cesta 'Premenná z ' Systémové premenné “ a stlačte „ Upraviť tlačidlo ”:

Potom ' Upraviť premennú prostredia Na obrazovke sa zobrazí okno “. Stlačte tlačidlo „ Nový “ a sem vložte skopírovanú cestu k inštalačnému adresáru Tesseract. Nakoniec kliknite na „ OK tlačidlo ”:

Krok 6: Overte inštaláciu Tesseract

Ak chcete overiť inštaláciu Tesseract, otvorte príkazový riadok systému Windows vyhľadaním „ Príkazový riadok “ v „ Začiatok ' Ponuka:

Skontrolujte verziu Tesseract pomocou poskytnutého príkazu:

> tesseract --verzia

Nižšie uvedený výstup naznačuje, že sme úspešne nainštalovali verziu Tesseract “ v5.2.0 “ v systéme Windows:

Poďme ďalej, aby sme zistili, ako používať Tesseract v systéme Windows.

Ako používať Tesseract v systéme Windows?

Tesseract sa používa na čítanie rukopisu alebo extrahovanie textu z obrázkov. Pozrime sa, ako to funguje:

Krok 1: Vyberte obrázok

Vyberte obrázok, z ktorého chcete extrahovať text. Ako sme si vybrali' 1.png “:

Krok 2: Extrahujte text z obrázka

Po otvorení CMD. Využite „ cd ” na zmenu adresára, kde je uložený obrázok. Potom spustite „ tesseract ” a definujte názov súboru s obrázkom, ako sme zadali “ 1.png “. ' Text Parameter ” zobrazuje názov výstupného súboru:

> cd C:\Users\anuma\OneDrive\Pictures\Uložené obrázky
> tesseract 1 .png 'text'

Krok 3: Overte extrakciu textu

Ak chcete overiť extrakciu textu, prejdite do adresára, kde existuje súbor obrázka. Môžete vidieť, že výstupný súbor „ Text “ je tu tiež uložený. Dvakrát kliknite na výstupný súbor a skontrolujte, či tesseract extrahoval text z obrázka alebo nie:

Môžete vidieť, že sme úspešne extrahovali text pomocou nástroja príkazového riadka Tesseract:

Predviedli sme techniku ​​inštalácie a používania Tesseract v systéme Windows.

Záver

Ak chcete nainštalovať Tesseract na Windows, musíte si stiahnuť inštalačný program Tesseract. Na tento účel postupujte podľa prvej časti tohto článku. Ďalej nastavte premennú prostredia Path na používanie a prístup k Tesseract z príkazového riadka Windows. Potom vyberte súbor obrázka a použite tlačidlo „ Tesseract ” na rozpoznanie a extrahovanie textu z obrázka. Tu ste sa naučili inštalovať, ako aj používať „ Tesseract “ na oknách.