Oprogramowanie do skanowania do pliku PDF dla systemu Linux?

18

Mam przepływ pracy, w którym skanuję dokumenty papierowe do przeszukiwalnych plików PDF za pomocą skanera dokumentów Fujitsu ScanSnap S500 . Nie jestem wielkim fanem dołączonego oprogramowania, ale jest bardzo prosty w użyciu: umieść stos papieru u góry, naciśnij zielony przycisk i pojawi się plik PDF z możliwością wyszukiwania.

Teraz chciałbym zrobić coś podobnego w systemie Linux (Ubuntu 10.10). Skaner jest obsługiwany po wyjęciu z pudełka.

Obejrzałem gscan2pdfi XSane:

  • XSane wygląda na mocny, ale nie jest tak naprawdę odpowiedni jako rozwiązanie przepływu pracy;
  • gscan2pdf jest nieco bliżej ideału „naciśnij przycisk, pobierz plik PDF”, ale wciąż nie jest to 100%.

Jakieś inne oprogramowanie, które możesz polecić (bezpłatnie lub w inny sposób)?

NPE
źródło
Używam kubków pdf, ale jest to tekst, którego nie można przeszukiwać
RobotHumans
1
Co jest „nie 100% tam” w gscan2pdf?
digitxp
@dititxp Nie chciałem zaśmiecać pytania listą problemów, upodobań i upodobań każdego produktu. Jednak skoro pytasz, gscan2pdfmiałem dziwne artefakty z „odfiltrowywaniem”, OCR był w większości bezużyteczny (niektóre silniki lepsze od innych) i ogólnie nie był tak usprawniony jak oryginalne rozwiązanie. W każdym razie istotą mojego pytania jest sprawdzenie, co jeszcze tam jest, abym mógł wypróbować różne rozwiązania i zobaczyć, co będzie dla mnie najlepsze.
NPE
@digitxp Właśnie przeczytałem mój poprzedni komentarz i brzmi to dość negatywnie. To nie była intencja. gscan2pdfjest właściwie dość zbliżony do tego, czego szukam, ale są obszary, w których niestety brakuje go w porównaniu do oryginalnego rozwiązania.
NPE

Odpowiedzi:

18

Oto kilka rzeczy, które znalazłem, badając to na początku tego roku. Niestety, nie mogę opublikować więcej niż jednego hiperłącza z powodu mojej ograniczonej oceny, więc będziesz musiał znaleźć linki do Google.

gscan2pdf

Naprawdę dobry system GUI, który może wykorzystywać różne silniki OCR dla backendu. Prawdopodobnie spełni to twoje rozwiązanie jednoprzyciskowe (a digitxp już o tym wspomniało).

Silnik Tesseract OCR

Może być używany z gscan2pdf.

Okop

Nie dotarłem zbyt daleko z okropusem, ponieważ nie rozpoznawał tekstu bez intensywnego szkolenia. Prawdopodobnie byłby bardzo dobry dla książek, ale nie działał dobrze dla rachunków i tym podobnych. YMMV.

Klinowy

Miałem największy sukces z Cuneiform i mogłem tworzyć pliki PDF z możliwością wyszukiwania, wykonując polecenia skryptowe podobne do następującego przepływu pracy:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Będziesz także musiał zainstalować pakiet exactimage.

Różne projekty open-source do OCR'inga PDF wykorzystują również Cuniform i hocr2pdf :

  • WatchOCR
  • Archiwista

Daj mi znać, czego się dowiesz!

Eric Holmberg
źródło