Widziałem niektóre ebooki / gazety, które najwyraźniej zostały zeskanowane z ich papierowych wersji, ale tekst w ebookach / gazetach można niesamowicie skopiować. Przypuszczam, że bezpośrednio skanowane wersje musiały zostać przetworzone przez niektóre oprogramowanie do optycznego rozpoznawania znaków.
Chciałbym więc wiedzieć, jakie są zalecane oprogramowanie do optycznego rozpoznawania znaków? Zwłaszcza te, które są albo na Ubuntu, albo za darmo? Jeśli te dla systemu Windows są znacznie lepsze, daj mi również znać.
Szczególnie interesują mnie te OCR, które mogą zaakceptować zeskanowany plik pdf jako dane wejściowe i nadal produkować jako plik wyjściowy inny plik pdf, który wygląda tak samo jak plik wejściowy, ale z tekstem, który można skopiować.
Dziękuję i pozdrawiam!
Ogranicz jedno oprogramowanie na odpowiedź
Kolejnym projektem, który powinien być w stanie to zrobić, jest gscan2pdf
Ten projekt może również korzystać z Tesseract, a także innych narzędzi OCR typu open source.
źródło
Nie znam żadnego OCR dla Ubuntu, ale dla Windows jest taki, który ma potrzebne funkcje. To jest ABBYY FineReader, to jest strona, ale nie jest darmowa
źródło
Darmowe rozwiązanie istnieje w repozytoriach , CunieForm (i YAGF jako nakładka dla Gnome)
źródło
Wygląda na to, że projekt Decapod eksportuje lub eksportuje do formatu PDF, więc Tesseract musi w jakiś sposób wyeksportować niezbędne informacje, aby wiedzieć, gdzie znaleziono tekst.
źródło
Adobe Acrobat (nie czytnik, nie darmowa aplikacja) jest w stanie OCR skanować zeskanowany dokument PDF i dodawać niewidoczną warstwę tekstową na górze obrazu, aby tekst mógł zostać zaznaczony i skopiowany. Niestety nie mam w zwyczaju sprawdzać, gdzie dokładnie ta funkcja znajduje się w interfejsie użytkownika programu Acrobat, ale z powodzeniem korzystałem z niej kilka razy w tym samym celu, o jakim wspomniałeś.
I tak, to oprogramowanie Windows, nie Linux, ale według bazy danych aplikacji Wine HQ działa pod Wine .
źródło
Najlepsze oprogramowanie OCR jest zwykle wbudowane w drukarki / skanery / kopiarki. Canon IRC 3880 w moim biurze może wyświetlać świetne pliki PDF z OCR łatwiej i szybciej niż jakikolwiek program na komputer, który znam. Połóż książkę na tacy (niezwiązana), wybierz adres e-mail, naciśnij zielony przycisk.
Większość plików PDF z OCR, które można znaleźć w sieci, pochodzi z podobnych maszyn. Problem polega na tym, że cena jest zbyt wysoka do użytku domowego (około 12000 euro IRC).
źródło
Moje ulubione bezpłatne oprogramowanie OCR online jest oferowane przez Ricoh Innovations. To jest program w wersji beta, ale uważam, że działa całkiem dobrze. Sprawdź to na: http://beta.rii.ricoh.com/betalabs/content/document-conversion
źródło
OCRFeeder
Jest to aplikacja GUI.
Używa tesseract-ocr lub ocrad jako silnika OCR.
Można zainstalować za pomocą Centrum oprogramowania lub za pomocą,
źródło
FineReader ma również wersję online. Twierdzi, że jest w stanie przetwarzać pliki PDF jako format wejściowy --- http://finereader.abbyyonline.com/en/Help/Faq/
źródło