Zeskanowałem około 80 stron do formatu pdf w skali szarości (format obrazu). Rozmiar końcowy pliku wynosi około 70 MB, co jest bardzo duże.
Teraz szukam metody konwersji pliku PDF opartego na obrazie w skali szarości na prosty plik tekstowy w formacie czarno-białym.
Zrobiłem wiele prób, gs
ale bez powodzenia (tylko kilka procent odzysku). Jeśli jakiś ekspert ma jakiś pomysł, proszę dać mi znać.
Odpowiedzi:
gImageReader to prosty interfejs GTK + do
tesseract-ocr
.przepraszam za niemiecki tekst
źródło
sudo apt-get install tesseract-ocr-[lang]
zastępująclang
go kodem językowym, np. W językudeu
niemieckim,por
w języku portugalskim itp.Możesz wypróbować pdfocr:
Aby wykonać składnię, należy
gdzie
input.pdf
jest nazwą pliku wejściowego ioutput.pdf
pliku wyjściowego.Domyślnie używa Tesseract. Aby zainstalować:
pdfocr tworzy osadzoną warstwę tekstową.
źródło
Ładuje tesseract i inne podczas instalacji. Jest to proste rozwiązanie jednoetapowe i może być skryptowane. Można go użyć
hocr2pdf
do utworzenia zwykłego pliku pdf, ale nie jest jeszcze gotowy na najwyższy czas ... jeszcze. Domyślnie używa tesseract i tworzy „wciśnięty” pdf: obraz + tekst pod spodem.Osadzony obraz można usunąć za pomocą poleceń takich jak:
ale tekst jest ukryty, więc wygląda jak pusta strona.
Załadowanie pliku PDF
LibreOffice Draw
powoduje wyświetlenie tekstu, a obraz można usunąć ręcznie.źródło
not authorized
błędów widentify-im6.q16
następujący sposób: imagemagick - konwersja: brak autoryzacjiaaaa
@ error / constit.c / ReadImage / 453 - Przepełnienie stosuW przypadku interfejsu graficznego sugerowanego przez @AB na Ubuntu 14.04 należy wykonać następujące czynności:
ocr tesseract na Ubuntu 14.04
lub w każdym razie dodaj do listy repozytoriów:
zanim to zadziała:
źródło
Możesz spróbować zmniejszyć plik, a następnie ocr.sh, aby dodać warstwę tekstową.
źródło
W pliku pdf kliknij prawym przyciskiem myszy i zapisz każdą stronę jako obraz (lub znajdź narzędzie, które automatycznie wykonuje wszystkie strony)
Otwórz centrum oprogramowania Ubuntu. Wyszukaj tesseract. Znajdziesz YAGF, który powinieneś zainstalować. W YAGF kliknij Plik -> Otwórz obraz i załaduj obraz. Następnie kliknij Plik -> Rozpoznaj.
W pierwszym teście miałem 100% dokładności.
źródło