OCR

Hogyan futtassuk a tesseract-ot a GIF fájlon Linux alatt

Hogyan futtassuk a tesseract-ot a GIF fájlon Linux alatt
A Tesseract egy OCR (Optical Character Recognition) rendszer, a legjobbak között. Az OCR szoftver képes megérteni a képek és a beolvasott dokumentumok szövegét (beleértve a kézírást is, ha betanítja). Az OCR rendszer sok feladatnál hasznos lehet, például szkennelt dokumentumok szavak számlálása, automatikus átírás, karakterek képből szöveggé alakítása és még sok más.

A LinuxHint már közzétett egy oktatóanyagot, amely elmagyarázza a Tesseract képzésének telepítését és megértését.

Ez az oktatóanyag bemutatja a Tesseract telepítési folyamatát a Debian / Ubuntu rendszerekben, de nem bővíti ki az oktatási funkciókat, ha nem ismeri ezt a szoftvert, akkor az említett cikk elolvasása jó bevezető lehet.  Ezután megmutatjuk, hogyan dolgozzon fel egy GIF-képet a Tesseract segítségével, hogy kihozza belőle a szöveget.

Tesseract telepítés:

Fuss:

apt install tesseract-ocr

Most telepítenie kell az imagemagick-et, amely egy képátalakító.

A telepítés után már tesztelhetjük a Tesseractot, teszteléséhez találtam egy újrafelhasználásra licencelt gif-et.

Most láthatjuk, mi történik, ha a tesseractot futtatjuk a gif képen:

tesseract 2002NY40.gif 1eredmény

Most tegyen egy „kevesebbet” az 1-es eredménynél.txt

kevesebb 1eredmény.txt

Itt van a kép a szövegével:

Ebben a Tesseract alapértelmezett beállításai meglehetősen pontosak, általában azért, hogy ilyen pontosságot kapjon, képzést igényel. Próbálkozzunk egy másik ingyenes képpel, amelyet a Wiki Commons-ban találtam, miután letöltöttem:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2eredmény

Most ellenőrizze a fájl tartalmát.

kevesebb 2eredmény.txt


Ez volt az eredmény, miközben az eredeti kép tartalma a következő volt:

A karakterfelismerés javítása érdekében számos lehetőséget és lépést követhetünk, amelyeket az előző bemutatónk részletezett: szegélyeltávolítás, zajeltávolítás, méretoptimalizálás és oldalforgatás egyéb funkciók, például a vágás között.

Ehhez az oktatóanyaghoz a textcleaner programot fogjuk használni, amelyet Fred ImageMagick Scripts fejlesztett ki.

Töltse le a szkriptet és futtassa:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.gif teszt.gif

jegyzet: a parancsfájl futtatása előtt adjon végrehajtási engedélyeket achmod + x textiltisztító”Gyökérként vagy sudo előtag.

Hol:

textiltisztító: meghívja a programot

-g: A kép konvertálása szürkeárnyalatosra

-e: enache

-f: filtersize

-s: sharpamt, az eredményre alkalmazandó pixelélesítés mennyisége.

További információ és példa a textiltisztító használatára: http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Amint látja, a textcleaner megváltoztatta a háttér színét, növelve a betűtípus és a háttér közötti kontrasztot.

Ha a tesseractot futtatjuk, valószínűleg más lesz az eredmény:

tesseract teszt.gif tesztkimenet

kevesebb tesztkimenet

Amint látja, az eredmény akkor is javult, ha nem teljesen pontos.

A parancs alakítani Az imagemagick által nyújtott kép lehetővé teszi, hogy a Tesseract által később feldolgozandó gif képekből képkockákat nyerjünk ki, ez akkor hasznos, ha a gif kép különböző képkockáiban extraible tartalom található.

A szintaxis egyszerű:

alakítani

Az eredmény a fájlok számaként jön létre, mint a gif képkockái, a megadott példában az eredmények a következők lennének: output-0.jpg, output-1.jpg, output-2.jpg, stb.

Ezután a tesseract segítségével feldolgozhatja őket, utasítva, hogy az összes fájlt helyettesítő karakterrel dolgozza fel, és az eredményt egyetlen fájlba mentve futtatásával:

mert i a kimenet- *; tesseract $ i outputrezult; Kész;

Az Imagemagick rengeteg lehetőséggel rendelkezik a képek optimalizálására, és nincs általános mód, az egyes forgatókönyveknél olvassa el a convert parancs man oldalát.

Remélem, hasznosnak találta ezt az oktatóanyagot a Tesseract-on.

OpenTTD bemutató
Az OpenTTD az egyik legnépszerűbb üzleti szimulációs játék. Ebben a játékban létre kell hoznia egy csodálatos szállítási vállalkozást. Azonban kezdete...
SuperTuxKart Linuxhoz
A SuperTuxKart egy nagyszerű cím, amelynek célja, hogy ingyenesen hozza el a Mario Kart élményét Linux rendszerén. Elég kihívást jelentő és szórakozta...
Csata a Wesnoth bemutatóért
A Battle for Wesnoth az egyik legnépszerűbb nyílt forráskódú stratégiai játék, amelyet jelenleg játszhatsz. Ez a játék nem csak nagyon hosszú ideje fe...