Jakieś narzędzia do automatyzacji OCR skanowanych plików PDF w sposób podobny do funkcji OCR programu Acrobat? [Zamknięte]

Preferowane oprogramowanie typu open source, ale nie konieczne.

Mam Adobe Acrobat 8 i bardzo podoba mi się funkcja OCR, która może zasadniczo umieścić niewidoczną warstwę tekstu OCR na zeskanowanym dokumencie. Zatem na ekranie widzisz oryginalny zeskanowany dokument, ale wynik można przeszukiwać.

To, czego szukam, to sposób na zautomatyzowanie tego procesu. Obecnie mam kilka skryptów, których używamy do przetwarzania i archiwizacji zeskanowanych plików, i szukam czegoś, co mogę podłączyć bezpośrednio do tego procesu wsadowego, aby wykonać OCR w sposób podobny do tego, co mogę zrobić z Acrobat.

Wszystkie sugestie mile widziane, dziękuję!

pdf document-management ocr Boden
źródło

PS - Staram się zachować pytania użytkownika dotyczące administratora. Jednak implementacja wynikająca z tego pytania z pewnością będzie istnieć na serwerze, na którym przetwarzam zeskanowaną dokumentację ... więc była to losowanie.

Boden

Odpowiedzi:

Mam to zaimplementowane w projekcie archiwizacji dokumentów firmy. Zeskanowany plik to plik tif (pojedyncza strona). Następnie za pomocą Cuneiform utwórz plik hocr pojedynczego pliku tif. Następnie za pomocą hocr2pdf wyślij plik PDF. W przypadku wielu skanowanych stron używam gs do łączenia plików PDF w jeden dokument PDF. Działa naprawdę dobrze, OCR jest wystarczająco dobry dla naszych potrzeb i można go wyszukiwać w dowolnej przeglądarce plików PDF.

Xeon
źródło

Ciekawy. Czy zanim spędzę zbyt dużo czasu na oglądaniu go, czy wynikowy plik PDF jest obrazem z oryginalnego skanu z osadzoną warstwą tekstową, czy jest to tylko tekst?

Boden,

Jest to obraz oryginalnego skanu z osadzoną warstwą tekstową. Plik hocr jest plikiem tekstowym ze znacznikami HTML.

xeon,

Świetny. Spróbuję. Jeśli wygląda na to, że zadziała, oznaczę twoją odpowiedź jako zaakceptowaną. Dzięki!

Boden

Dzięki jeszcze raz. Trochę kłopotów z zainstalowaniem tych dwóch facetów, ale działa. Napisałem prosty skrypt, aby sprawdzić folder FTP pod kątem nowych plików .tif, na których działa Cuneiform i hocr2pdf, a następnie przesyła wyniki do biblioteki dokumentów Sharpoint za pomocą curl. Dzięki temu ludzie mogą archiwizować dokumenty bezpośrednio z maszyny kopiującej, a archiwa można w pełni przeszukiwać tekst. Pytanie: czy wiesz, co robi opcja „nadpisywanie rozdzielczości” w hocr2pdf?

Boden,

Cieszę się, że ci się to udaje. Nie wiem, czy argument -r tak.

xeon,

Czy spojrzałeś na WatchOCR? Możesz go pobrać ze strony http://www.watchocr.com. Jest to darmowy serwer OCR typu open source, który przekształca tylko pliki PDF z obrazami w pliki PDF z możliwością przeszukiwania tekstu z oglądanego folderu lub udziału sieciowego.

Rlangner
źródło

Lubię dźwięki odpowiedzi Xeon, choć OCRopus to świetna zabawa.

Kara Marfia
źródło

Kiedy szukałem i testowałem różne rozwiązania. Próbowałem tego i tesseract-ocr i nie mieli wtedy dobrego wyjścia do formatu PDF. Nie sprawdziłem, czy mają takie cechy ... Wiem, że tesseract-ocr ma to na swojej osi czasu ...

Xeon,