Konwertuj plik PDF w wyszukiwarce

3

Szukam sposobu na konwersję tysięcy plików PDF do przeszukiwalnych plików PDF. Użyłem programu o nazwie „PDF Create Assistant”, który był dostarczany wraz z programem Nuance ecopy oprogramowanie. Nie możesz jednak wybrać folderu, musisz przejść do każdego podfolderu, wybrać pliki do przekonwertowania, a następnie przejść do następnego folderu.

Jaki jest inny sposób przekonwertowania dużej liczby plików PDF na przeszukiwalne pliki PDF?

Nie miałem żadnych sugestii. Z pewnością musi istnieć sposób na wsadowe konwertowanie plików PDF (?).

boilers222
źródło
Nie mogłem znaleźć przewodnika użytkownika na stronie. Czy możesz użyć ecopy z wiersza poleceń, czy musisz użyć GUI? Jeśli możesz wywołać go z wiersza poleceń, możesz łatwo utworzyć skrypt, który przechodzi przez wszystkie dokumenty i wywołuje aplikację, aby przekonwertować każdy z nich.
Musisz użyć GUI. Przynajmniej nie znalazłem sposobu na wywołanie go z linii poleceń. Jeśli ktoś wie, jak go użyć z linii poleceń, daj mi znać. Dzięki!
Czy gdzieś w Internecie znajduje się podręcznik użytkownika ecopy lub inne informacje techniczne? Funkcjonalność linii poleceń, jeśli istnieje, prawdopodobnie zostałaby tam opisana. Jeśli możesz dać mi wskaźnik, rzucę okiem.
Nie to, co znalazłem.

Odpowiedzi:

2

Użyj pliku CPYCONVERTER.EXE w folderze BIN jako linii poleceń (symbole wieloznaczne obsługiwane w programie eCopy Ver.9-Paperworks) Dotyczy wersji 8.5 eCopy Desktop.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

źródło
0

Na Linuksie

Najpierw musisz OCR the PDF s, które nie są jeszcze OCR Napisałem całkiem prosty sposób wyszukiwania wszystkich plików PDF, które nie mogą być grep ed i OCR je.

Zauważyłem, że a pdf plik nie ma żadnej czcionki, zazwyczaj nie można go wyszukać. Więc wiedząc o tym możemy użyć pdffonts.

Pierwsze 2 linie pdffonts są nagłówkiem tabeli, więc gdy plik jest przeszukiwalny, ma więcej niż dwa wyjścia liniowe, wiedząc, że możemy utworzyć:

gedit check_pdf_searchable.sh

następnie wklej to

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

następnie spraw, aby był wykonywalny

chmod +x check_pdf_searchable.sh

następnie wyświetl listę wszystkich plików PDF, których nie można przeszukiwać:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

lub w katalogu i jego podkatalogach:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
Eduard Florinescu
źródło
0

Najprostszym sposobem jest użycie online ocr api . Api ocr.space zawiera obsługę tworzenia przeszukiwalne pliki PDF . Usługa ma darmowy poziom 25 000 konwersji miesięcznie.

Możesz to zautomatyzować za pomocą Powershell, partii lub dowolnego innego języka skryptowego. Na przykład uruchom konwersję z partii za pomocą cURL:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image
Nic Endo
źródło