Mam ciężki skanowany plik PDF z OCR. Mogłem zmniejszyć jego rozmiar o połowę ghostscript win64 , za pomocą tego polecenia (zgodnie z zaleceniami w tym odpowiedź ):
gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf
Ale nadal nie jest wystarczająco jasny.
Mogłem również przekonwertować plik pdf na Kaliber lub pdftotext z xpdf ale tracę układ.
Czy istnieje sposób na wyodrębnienie OCR, zachowując dokładną pozycję każdego tekstu na każdej stronie podczas usuwania zeskanowanego obrazu?
pdf
conversion
MagTun
źródło
źródło