Zalecenia dotyczące oprogramowania do optycznego rozpoznawania znaków?

15

Widziałem niektóre ebooki / gazety, które najwyraźniej zostały zeskanowane z ich papierowych wersji, ale tekst w ebookach / gazetach można niesamowicie skopiować. Przypuszczam, że bezpośrednio skanowane wersje musiały zostać przetworzone przez niektóre oprogramowanie do optycznego rozpoznawania znaków.

Chciałbym więc wiedzieć, jakie są zalecane oprogramowanie do optycznego rozpoznawania znaków? Zwłaszcza te, które są albo na Ubuntu, albo za darmo? Jeśli te dla systemu Windows są znacznie lepsze, daj mi również znać.

Szczególnie interesują mnie te OCR, które mogą zaakceptować zeskanowany plik pdf jako dane wejściowe i nadal produkować jako plik wyjściowy inny plik pdf, który wygląda tak samo jak plik wejściowy, ale z tekstem, który można skopiować.

Dziękuję i pozdrawiam!

Ogranicz jedno oprogramowanie na odpowiedź

Tim
źródło

Odpowiedzi:

10

Tesseract OCR Zainstaluj Tesseract OCR

Oryginalny silnik został opracowany pod koniec lat 80. przez HP i IBM, ale okazało się, że jest jednym z najlepszych programów do rozpoznawania oka, z których korzystałem. Niedawno przeszedł wiele aktualizacji silnika i stał się jednym z najbardziej wszechstronnych narzędzi OCR na rynku. Odsłaniając w stosunku do większości innych narzędzi OCR (z czymś w wyższym 90 procentowym dopasowaniu tekstu) może łatwo przekształcić standardowy typ dokumentu twarzą w tekst.

Oto przykład:

tesseract ScannedDocument.png out

Stworzy plik o nazwie out.txt

Dennis
źródło
Dzięki! Nie widziałem, że Tesseract obsługuje wyjście pdf. Czy wiesz o tym?
Tim
@Tim, natywnie nie wierzę, że Tesseract obsługuje wiele formatów wejścia / wyjścia. Jednak, jak wspomina odpowiedź JanC, gscan2pdf używa Tesseract dla OCR, a jak sama nazwa wskazuje, obsługuje wyjście PDF.
Tim Lytle
Zauważ, że OCR oznacza optyczne rozpoznawanie znaków: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez
8

Kolejnym projektem, który powinien być w stanie to zrobić, jest gscan2pdf

sudo apt-get install gscan2pdf

Ten projekt może również korzystać z Tesseract, a także innych narzędzi OCR typu open source.

Mark Kirby
źródło
3

Nie znam żadnego OCR dla Ubuntu, ale dla Windows jest taki, który ma potrzebne funkcje. To jest ABBYY FineReader, to jest strona, ale nie jest darmowa

vicmp3
źródło
1
Użyłem FineReadera dokładnie tak, jak chce Tim (do otwierania chronionych plików PDF)
Extender
3

Darmowe rozwiązanie istnieje w repozytoriach , CunieForm (i YAGF jako nakładka dla Gnome)

Wypełniacz
źródło
Dzięki! Czy CunieForm obsługuje pdf jako formaty wejściowe i wyjściowe? Nie widziałem tego na stronie Wikipedii i na oficjalnej stronie.
Tim
Może nie, ale podział pliku PDF na serię TIFF jest i tak prostym zadaniem :)
Extender
3

Wygląda na to, że projekt Decapod eksportuje lub eksportuje do formatu PDF, więc Tesseract musi w jakiś sposób wyeksportować niezbędne informacje, aby wiedzieć, gdzie znaleziono tekst.

JanC
źródło
1

Adobe Acrobat (nie czytnik, nie darmowa aplikacja) jest w stanie OCR skanować zeskanowany dokument PDF i dodawać niewidoczną warstwę tekstową na górze obrazu, aby tekst mógł zostać zaznaczony i skopiowany. Niestety nie mam w zwyczaju sprawdzać, gdzie dokładnie ta funkcja znajduje się w interfejsie użytkownika programu Acrobat, ale z powodzeniem korzystałem z niej kilka razy w tym samym celu, o jakim wspomniałeś.

I tak, to oprogramowanie Windows, nie Linux, ale według bazy danych aplikacji Wine HQ działa pod Wine .

Serge Broslavsky
źródło
1

Najlepsze oprogramowanie OCR jest zwykle wbudowane w drukarki / skanery / kopiarki. Canon IRC 3880 w moim biurze może wyświetlać świetne pliki PDF z OCR łatwiej i szybciej niż jakikolwiek program na komputer, który znam. Połóż książkę na tacy (niezwiązana), wybierz adres e-mail, naciśnij zielony przycisk.

Większość plików PDF z OCR, które można znaleźć w sieci, pochodzi z podobnych maszyn. Problem polega na tym, że cena jest zbyt wysoka do użytku domowego (około 12000 euro IRC).

Javier Rivera
źródło
1

OCRFeeder

Jest to aplikacja GUI.

wprowadź opis zdjęcia tutaj

Używa tesseract-ocr lub ocrad jako silnika OCR.

Można zainstalować za pomocą Centrum oprogramowania lub za pomocą,

sudo apt-get install ocrfeeder
użytkownik224082
źródło