Szukam sposobu na konwersję tysięcy plików PDF do przeszukiwalnych plików PDF. Użyłem programu o nazwie „PDF Create Assistant”, który był dostarczany wraz z programem Nuance ecopy oprogramowanie. Nie możesz jednak wybrać folderu, musisz przejść do każdego podfolderu, wybrać pliki do przekonwertowania, a następnie przejść do następnego folderu.
Jaki jest inny sposób przekonwertowania dużej liczby plików PDF na przeszukiwalne pliki PDF?
Nie miałem żadnych sugestii. Z pewnością musi istnieć sposób na wsadowe konwertowanie plików PDF (?).
Odpowiedzi:
Użyj pliku CPYCONVERTER.EXE w folderze BIN jako linii poleceń (symbole wieloznaczne obsługiwane w programie eCopy Ver.9-Paperworks) Dotyczy wersji 8.5 eCopy Desktop.
źródło
Na Linuksie
Najpierw musisz OCR the
PDF
s, które nie są jeszcze OCR Napisałem całkiem prosty sposób wyszukiwania wszystkich plików PDF, które nie mogą byćgrep
ed i OCR je.Zauważyłem, że a
pdf
plik nie ma żadnej czcionki, zazwyczaj nie można go wyszukać. Więc wiedząc o tym możemy użyćpdffonts
.Pierwsze 2 linie
pdffonts
są nagłówkiem tabeli, więc gdy plik jest przeszukiwalny, ma więcej niż dwa wyjścia liniowe, wiedząc, że możemy utworzyć:następnie wklej to
następnie spraw, aby był wykonywalny
następnie wyświetl listę wszystkich plików PDF, których nie można przeszukiwać:
lub w katalogu i jego podkatalogach:
źródło
Najprostszym sposobem jest użycie online ocr api . Api ocr.space zawiera obsługę tworzenia przeszukiwalne pliki PDF . Usługa ma darmowy poziom 25 000 konwersji miesięcznie.
Możesz to zautomatyzować za pomocą Powershell, partii lub dowolnego innego języka skryptowego. Na przykład uruchom konwersję z partii za pomocą cURL:
źródło