Mam dobrej jakości skan dokumentu; taki skan jest w formacie pdf.
Jak mogę dodać informacje ocr do pliku PDF, aby można go było wyszukiwać? Przez wyszukiwalne rozumiem, że celem jest to, że podczas przeglądania pliku pdf za pomocą evince, CTRL-F faktycznie pozwala mi przeszukiwać zawartość pdf.
Odpowiedzi:
pdfsandwich
Robi to, co chcesz i zapewnia pakiety Ubuntu deb. Wykorzystuje tesseract jak silnik OCR. Poniższa rozmowa dodaje warstwę tekstową do zeskanowanego pliku PDF:
W następstwie robi to samo, ale z innego języka (kod ISO 639-2, pobierz
tesseract-ocr-LANGCODE
pakiet) i ustawienie układu:Jeśli masz żadnego błędu prosimy pobrać Najnowsza wersja deb z Sourceforge .
Oświadczenie: Jestem programistą pdfsandwich i dlatego oczywiście jestem stronniczy.
źródło
pdfunite
.pdfsandwitch
? Robię to z niektórych szwedzkich dokumentów, i to działa dobrze, z wyjątkiem niektórych pisowni (prawdopodobnie z powodu czcionki oryginału), które byłyby łatwe do ustalenia, czy to plik tekstowy, ale w jaki sposób można zrobić to w wynikowym pliku PDF ?Są dwa projekty, które załatwiają sprawę : GScan2PDF i OCRFeeder
źródło
Znalazłem nie idealne rozwiązanie, ale bardzo skuteczne.
Korzystam z przeglądarki PDF X-Change Viewer za pośrednictwem Wine. Posiada funkcję OCR, która dodaje warstwę tekstową do istniejącego pliku pdf opartego na obrazie.
W ten sposób możesz wyszukiwać i kopiować tekst z tej niewidocznej warstwy.
źródło
W przypadku rozwiązania wiersza polecenia można użyć pdfocr .
W skrócie, zainstaluj oprogramowanie:
Następnie uruchom pdfocr:
To działało dla mnie na Ubuntu 12.04 LTS.
źródło
pdfsandwich
, ponieważ modyfikuje / kompresuje pliki PDF zawierające obrazy highres, zasadniczo niszcząc niektóre oryginalne informacje o obrazie.OCRmyPDF to rozwiązanie, które można łatwo wdrożyć i zapewnia wyjściowy plik PDF o tej samej jakości pliku wejściowego i rozsądnej wielkości:
https://github.com/jbarlow83/OCRmyPDF
źródło
To jest mój szybki i brudny rozwiązanie oparte na ImageMagick na
convert
,tesseract
,parallel
orazpdftk
(wszystkie dostępne na dystrybucjach opartych na Debianie). Jest w dużej mierze oparty na tym blogu .źródło
W przypadku całego katalogu z plikami ppm możesz użyć tego skryptu ppm2ocrpdf.sh
źródło