po pierwsze przepraszam, jeśli wcześniej o to pytano - szukałem przez chwilę istniejących postów, ale nie mogłem znaleźć wsparcia.
Interesuje mnie rozwiązanie dla Fedory do OCR wielostronicowego pliku PDF, którego nie można przeszukiwać, i przekształcenia tego pliku pdf w nowy plik pdf, który zawiera warstwę tekstową na górze obrazu. W Mac OSX lub Windows moglibyśmy używać Adobe Acrobat, ale w Linuksie, a konkretnie w Fedorze?
https://snippets.webaware.com.au/howto/pdf-ocr-linux/ wydaje się opisywać rozwiązanie - ale niestety jestem już zagubiony podczas pobierania dokładnego obrazu.
command-line
pdf
ocr
ingli
źródło
źródło
Odpowiedzi:
Najlepszym i najłatwiejszym sposobem na jego użycie
pypdfocr
nie jest zmiana pliku pdf. pypdfocr to link do modułu python tutaj.Na koniec będziesz miał inny
your_document_ocr.pdf
sposób, w jaki chcesz, z tekstem do przeszukiwania. Aplikacja nie zmienia jakości obrazu. Zwiększa nieco rozmiar pliku, dodając tekst nakładki.Myślę, że polecenie jest dość łatwe, ponieważ nie wymaga GUI. Być może instalowanie pypdfocr jest nieco bardziej szczegółowe:
Aktualizacja 3 listopada 2018 r .:
pypdfocr
nie jest już obsługiwany od 2016 r. i zauważyłem pewne problemy z powodu braku opieki.ocrmypdf
( moduł ) wykonuje podobną pracę i może być używany w następujący sposób:Żeby zainstalować:
lub
źródło
Po dowiedzeniu się, że tesseract może teraz także tworzyć pliki PDF z możliwością wyszukiwania, znalazłem kanapkę ze skryptem: http://www.tobias-elze.de/pdfsandwich/
po zainstalowaniu zależności (może to nie być pełna lista)
Postępowałem zgodnie ze wskazówkami skryptu dotyczącymi kompilacji ze źródła
a to pozwala mi teraz biegać
w wyniku czego można przeszukiwać pdf.
źródło
Łatwym narzędziem dostępnym w Ubuntu jest „ocrfeeder”, który umożliwia generowanie plików PDF z tekstem OCR nałożonym na oryginalne dokumenty. Wykorzystuje Tesseract i inne silniki OCR (nie jestem pewien, który) i zapewnia również obrót obrazu / „oderwanie” itp.
źródło
Miałem ten sam problem, więc napisałem to w weekend. Spróbuj; działa świetnie! Jest to proste opakowanie
tesseract
. Służypdftoppm
do konwertowania pliku PDF na kilka plików TIFF, a następnietesseract
do wykonania na nich OCR (optycznego rozpoznawania znaków) i wygenerowania pliku PDF z możliwością wyszukiwania jako pliku wyjściowego. Wszystkie pośrednie pliki tymczasowe są automatycznie usuwane po zakończeniu skryptu.Kod źródłowy: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Instrukcje instalacji i użytkowania
pdf2searchablepdf
:Testowane na Ubuntu 18.04 11 listopada 2019 r.
Zainstalować:
Posługiwać się:
Otrzymasz teraz pdf o nazwie mypdf_searchable.pdf , który zawiera tekst do przeszukiwania!
Gotowy. Nie ma zależności od Pythona, ponieważ obecnie jest napisany całkowicie w bash.
Referencje lub powiązane zasoby:
źródło