Filtrowanie trochę „półtonowanego” obrazu do przetwarzania OCR

10

Mam zeskanowany materiał PDF, do którego chcę dodać ukrytą warstwę tekstową, aby móc zindeksować dokument. Użyłem czarno-białego urządzenia wyjściowego tiff ghostscript (tiffg4), aby wyodrębnić strony jako obrazy tiff, a oto przykład tego, jak wyglądają:

wprowadź opis zdjęcia tutaj

Przetwarzanie tego obrazu za pomocą tesseract nie daje dobrych wyników.
Zmiana DPI ghostscript (600, 300, 150, 96) pokazuje, że obraz przy 96 DPI daje najlepszy wynik z tesseract, ale nadal nie jest zadowalający.

Teraz pomyślałem o zapytaniu o radę, który filtr poprawi ten obraz do przetwarzania OCR.

Mógłbym użyć imagemagick lub numpy / scipy / ndimage

zetah
źródło

Odpowiedzi:

2

możesz to usunąć za pomocą filtra dolnoprzepustowego. jest to albo wykonywane w przestrzeni częstotliwości, albo po prostu weź (różnicę) gaussa obrazu.

gaussowski dolnoprzepustowy, następnie różnica gaussów do zaostrzenia

Christoph Rackwitz
źródło