Preferowane oprogramowanie typu open source, ale nie konieczne.
Mam Adobe Acrobat 8 i bardzo podoba mi się funkcja OCR, która może zasadniczo umieścić niewidoczną warstwę tekstu OCR na zeskanowanym dokumencie. Zatem na ekranie widzisz oryginalny zeskanowany dokument, ale wynik można przeszukiwać.
To, czego szukam, to sposób na zautomatyzowanie tego procesu. Obecnie mam kilka skryptów, których używamy do przetwarzania i archiwizacji zeskanowanych plików, i szukam czegoś, co mogę podłączyć bezpośrednio do tego procesu wsadowego, aby wykonać OCR w sposób podobny do tego, co mogę zrobić z Acrobat.
Wszystkie sugestie mile widziane, dziękuję!
pdf
document-management
ocr
Boden
źródło
źródło
Odpowiedzi:
Mam to zaimplementowane w projekcie archiwizacji dokumentów firmy. Zeskanowany plik to plik tif (pojedyncza strona). Następnie za pomocą Cuneiform utwórz plik hocr pojedynczego pliku tif. Następnie za pomocą hocr2pdf wyślij plik PDF. W przypadku wielu skanowanych stron używam gs do łączenia plików PDF w jeden dokument PDF. Działa naprawdę dobrze, OCR jest wystarczająco dobry dla naszych potrzeb i można go wyszukiwać w dowolnej przeglądarce plików PDF.
źródło
Czy spojrzałeś na WatchOCR? Możesz go pobrać ze strony http://www.watchocr.com. Jest to darmowy serwer OCR typu open source, który przekształca tylko pliki PDF z obrazami w pliki PDF z możliwością przeszukiwania tekstu z oglądanego folderu lub udziału sieciowego.
źródło
Lubię dźwięki odpowiedzi Xeon, choć OCRopus to świetna zabawa.
źródło