Mam ciężki skanowany plik PDF z OCR. Mogłem zmniejszyć jego rozmiar o połowę ghostscript win64 , za pomocą tego polecenia (zgodnie z zaleceniami w tym odpowiedź ):

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

Ale nadal nie jest wystarczająco jasny.

Mogłem również przekonwertować plik pdf na Kaliber lub pdftotext z xpdf ale tracę układ.

Czy istnieje sposób na wyodrębnienie OCR, zachowując dokładną pozycję każdego tekstu na każdej stronie podczas usuwania zeskanowanego obrazu?

MagTun
źródło