Mam przepływ pracy, w którym skanuję dokumenty papierowe do przeszukiwalnych plików PDF za pomocą skanera dokumentów Fujitsu ScanSnap S500 . Nie jestem wielkim fanem dołączonego oprogramowania, ale jest bardzo prosty w użyciu: umieść stos papieru u góry, naciśnij zielony przycisk i pojawi się plik PDF z możliwością wyszukiwania.
Teraz chciałbym zrobić coś podobnego w systemie Linux (Ubuntu 10.10). Skaner jest obsługiwany po wyjęciu z pudełka.
Obejrzałem gscan2pdf
i XSane
:
XSane
wygląda na mocny, ale nie jest tak naprawdę odpowiedni jako rozwiązanie przepływu pracy;gscan2pdf
jest nieco bliżej ideału „naciśnij przycisk, pobierz plik PDF”, ale wciąż nie jest to 100%.
Jakieś inne oprogramowanie, które możesz polecić (bezpłatnie lub w inny sposób)?
gscan2pdf
miałem dziwne artefakty z „odfiltrowywaniem”, OCR był w większości bezużyteczny (niektóre silniki lepsze od innych) i ogólnie nie był tak usprawniony jak oryginalne rozwiązanie. W każdym razie istotą mojego pytania jest sprawdzenie, co jeszcze tam jest, abym mógł wypróbować różne rozwiązania i zobaczyć, co będzie dla mnie najlepsze.gscan2pdf
jest właściwie dość zbliżony do tego, czego szukam, ale są obszary, w których niestety brakuje go w porównaniu do oryginalnego rozwiązania.Odpowiedzi:
Oto kilka rzeczy, które znalazłem, badając to na początku tego roku. Niestety, nie mogę opublikować więcej niż jednego hiperłącza z powodu mojej ograniczonej oceny, więc będziesz musiał znaleźć linki do Google.
gscan2pdf
Naprawdę dobry system GUI, który może wykorzystywać różne silniki OCR dla backendu. Prawdopodobnie spełni to twoje rozwiązanie jednoprzyciskowe (a digitxp już o tym wspomniało).
Silnik Tesseract OCR
Może być używany z gscan2pdf.
Okop
Nie dotarłem zbyt daleko z okropusem, ponieważ nie rozpoznawał tekstu bez intensywnego szkolenia. Prawdopodobnie byłby bardzo dobry dla książek, ale nie działał dobrze dla rachunków i tym podobnych. YMMV.
Klinowy
Miałem największy sukces z Cuneiform i mogłem tworzyć pliki PDF z możliwością wyszukiwania, wykonując polecenia skryptowe podobne do następującego przepływu pracy:
Będziesz także musiał zainstalować pakiet exactimage.
Różne projekty open-source do OCR'inga PDF wykorzystują również Cuniform i hocr2pdf :
Daj mi znać, czego się dowiesz!
źródło