Konwertuj plik PDF w wyszukiwarce

3

Szukam sposobu na konwersję tysięcy plików PDF do przeszukiwalnych plików PDF. Użyłem programu o nazwie „PDF Create Assistant”, który był dostarczany wraz z programem Nuance ecopy oprogramowanie. Nie możesz jednak wybrać folderu, musisz przejść do każdego podfolderu, wybrać pliki do przekonwertowania, a następnie przejść do następnego folderu.

Jaki jest inny sposób przekonwertowania dużej liczby plików PDF na przeszukiwalne pliki PDF?

Nie miałem żadnych sugestii. Z pewnością musi istnieć sposób na wsadowe konwertowanie plików PDF (?).

pdf ocr boilers222
źródło

Nie mogłem znaleźć przewodnika użytkownika na stronie. Czy możesz użyć ecopy z wiersza poleceń, czy musisz użyć GUI? Jeśli możesz wywołać go z wiersza poleceń, możesz łatwo utworzyć skrypt, który przechodzi przez wszystkie dokumenty i wywołuje aplikację, aby przekonwertować każdy z nich.

Musisz użyć GUI. Przynajmniej nie znalazłem sposobu na wywołanie go z linii poleceń. Jeśli ktoś wie, jak go użyć z linii poleceń, daj mi znać. Dzięki!

Czy gdzieś w Internecie znajduje się podręcznik użytkownika ecopy lub inne informacje techniczne? Funkcjonalność linii poleceń, jeśli istnieje, prawdopodobnie zostałaby tam opisana. Jeśli możesz dać mi wskaźnik, rzucę okiem.

Nie to, co znalazłem.

2

Użyj pliku CPYCONVERTER.EXE w folderze BIN jako linii poleceń (symbole wieloznaczne obsługiwane w programie eCopy Ver.9-Paperworks) Dotyczy wersji 8.5 eCopy Desktop.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

źródło

0

Na Linuksie

Najpierw musisz OCR the PDF s, które nie są jeszcze OCR Napisałem całkiem prosty sposób wyszukiwania wszystkich plików PDF, które nie mogą być grep ed i OCR je.

Zauważyłem, że a pdf plik nie ma żadnej czcionki, zazwyczaj nie można go wyszukać. Więc wiedząc o tym możemy użyć pdffonts.

Pierwsze 2 linie pdffonts są nagłówkiem tabeli, więc gdy plik jest przeszukiwalny, ma więcej niż dwa wyjścia liniowe, wiedząc, że możemy utworzyć:

gedit check_pdf_searchable.sh

następnie wklej to

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

następnie spraw, aby był wykonywalny

chmod +x check_pdf_searchable.sh

następnie wyświetl listę wszystkich plików PDF, których nie można przeszukiwać:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

lub w katalogu i jego podkatalogach:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

Eduard Florinescu
źródło

0

Najprostszym sposobem jest użycie online ocr api . Api ocr.space zawiera obsługę tworzenia przeszukiwalne pliki PDF . Usługa ma darmowy poziom 25 000 konwersji miesięcznie.

Możesz to zautomatyzować za pomocą Powershell, partii lub dowolnego innego języka skryptowego. Na przykład uruchom konwersję z partii za pomocą cURL:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image

Nic Endo
źródło

Konwertuj plik PDF w wyszukiwarce

Odpowiedzi:

Na Linuksie