Jak przekonwertować zeskanowany plik PDF na plik PDF z tekstem

36

Zeskanowałem około 80 stron do formatu pdf w skali szarości (format obrazu). Rozmiar końcowy pliku wynosi około 70 MB, co jest bardzo duże.

Teraz szukam metody konwersji pliku PDF opartego na obrazie w skali szarości na prosty plik tekstowy w formacie czarno-białym.

Zrobiłem wiele prób, gsale bez powodzenia (tylko kilka procent odzysku). Jeśli jakiś ekspert ma jakiś pomysł, proszę dać mi znać.

Admirał
źródło
1
Potrzebujesz narzędzia OCR. Spójrz na Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.
4
Jeśli chcesz zachować niezmienione obrazy PDF i dodać do nich tekst, zapoznaj się z pytaniem Dodawanie informacji OCR do pliku PDF .
colan
Jeśli możesz zamieścić link do (na przykład) jednostronicowego przykładu, moglibyśmy przetestować rozwiązania ...
Rmano
To nie jest rozwiązanie OCR, ale askubuntu.com/a/3387/16395 bardzo pomaga (chociaż 72dpi jest trochę słabe, mam lepsze wyniki ze 120).
Rmano
Czy YAGF działa poprawnie z Ubuntu 16.04? Po załadowaniu obrazu lub dokumentu pdf program przerywa się bez żadnego komunikatu o błędzie. W Ubuntu 14.04 nie miałem problemów. H.Roos
Hubert Roos

Odpowiedzi:

25

gImageReader to prosty interfejs GTK + do tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

przepraszam za niemiecki tekst

AB
źródło
4
Należy również zainstalować język dokumentu, aby poprawić OCR, sudo apt-get install tesseract-ocr-[lang]zastępując langgo kodem językowym, np. W języku deuniemieckim, porw języku portugalskim itp.
estibordo
1
To oprogramowanie jest brzydkie. Użyteczność jest poniżej zera. Chociaż próbuje wykonać zadanie, ale nie jest w stanie odczytać zwykłych tabel podobnych do arkuszy kalkulacyjnych. Po prostu brakuje stron zawierających je.
Max Yudin
9

Możesz wypróbować pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Aby wykonać składnię, należy

 pdfocr -i input.pdf -o output.pdf

gdzie input.pdfjest nazwą pliku wejściowego i output.pdfpliku wyjściowego.

Domyślnie używa Tesseract. Aby zainstalować:

 sudo apt-get install tesseract-ocr

pdfocr tworzy osadzoną warstwę tekstową.

rafmunozf
źródło
Świetny! Co ciekawe, po wykonaniu powyższych kroków plik można teraz przeszukiwać w programie Adobe Acrobat DC, ale nie w wersji zapoznawczej.
lukeaus
2
To repozytorium nie obsługuje Xenial
Max N
Możesz spróbować zainstalować starą wersję pdfocr, jeśli zainstalujesz podstępną wersję na Xenial, to będzie działać poprawnie. Aby to zrobić, dodaj „deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main” i „deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main” do /etc/apt/sources.list, a następnie „sudo apt update” i „sudo apt-get install pdfocr”
rafmunozf
2
pdfocr to skrypt, który automatyzuje następujący proces: 1. Podział pliku PDF na osobne strony za pomocą pdftk 2. Wyodrębnianie danych obrazu za pomocą pdfimages 3. Wykonywanie OCR (optyczne rozpoznawanie znaków) za pomocą pisma klinowego 4. Osadzanie wykrytego tekstu z powrotem w Plik PDF za pomocą hocr2pdf 5. Scalanie plików za pomocą pdftk. (cytat z ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell
3
pdfsandwich

Ładuje tesseract i inne podczas instalacji. Jest to proste rozwiązanie jednoetapowe i może być skryptowane. Można go użyć hocr2pdfdo utworzenia zwykłego pliku pdf, ale nie jest jeszcze gotowy na najwyższy czas ... jeszcze. Domyślnie używa tesseract i tworzy „wciśnięty” pdf: obraz + tekst pod spodem.

Osadzony obraz można usunąć za pomocą poleceń takich jak:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

ale tekst jest ukryty, więc wygląda jak pusta strona.

Załadowanie pliku PDF LibreOffice Drawpowoduje wyświetlenie tekstu, a obraz można usunąć ręcznie.

AtesComp
źródło
Co robimy z problemami bezpieczeństwa imagemagick / ghostscript prowadzącymi do not authorizedbłędów w identify-im6.q16następujący sposób: imagemagick - konwersja: brak autoryzacji aaaa@ error / constit.c / ReadImage / 453 - Przepełnienie stosu
nealmcb
1

W przypadku interfejsu graficznego sugerowanego przez @AB na Ubuntu 14.04 należy wykonać następujące czynności:

ocr tesseract na Ubuntu 14.04

lub w każdym razie dodaj do listy repozytoriów:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

zanim to zadziała:

sudo apt-get install gimagereader
michel.iamit
źródło
1

Możesz spróbować zmniejszyć plik, a następnie ocr.sh, aby dodać warstwę tekstową.

student
źródło
-1

W pliku pdf kliknij prawym przyciskiem myszy i zapisz każdą stronę jako obraz (lub znajdź narzędzie, które automatycznie wykonuje wszystkie strony)

Otwórz centrum oprogramowania Ubuntu. Wyszukaj tesseract. Znajdziesz YAGF, który powinieneś zainstalować. W YAGF kliknij Plik -> Otwórz obraz i załaduj obraz. Następnie kliknij Plik -> Rozpoznaj.

W pierwszym teście miałem 100% dokładności.

atmelino
źródło