Mam zeskanowany materiał PDF, do którego chcę dodać ukrytą warstwę tekstową, aby móc zindeksować dokument. Użyłem czarno-białego urządzenia wyjściowego tiff ghostscript (tiffg4), aby wyodrębnić strony jako obrazy tiff, a oto przykład tego, jak wyglądają:
Przetwarzanie tego obrazu za pomocą tesseract nie daje dobrych wyników.
Zmiana DPI ghostscript (600, 300, 150, 96) pokazuje, że obraz przy 96 DPI daje najlepszy wynik z tesseract, ale nadal nie jest zadowalający.
Teraz pomyślałem o zapytaniu o radę, który filtr poprawi ten obraz do przetwarzania OCR.
Mógłbym użyć imagemagick lub numpy / scipy / ndimage
źródło