Jak przekonwertować zeskanowane obrazy jako pliki PDF na plik PDF z możliwością wyszukiwania? [Zamknięte]

19

Mam plik PDF zeskanowanej książki.

Szukam darmowego oprogramowania, które wykona OCR, a następnie zapewni opcję zapisania go ponownie jako plik PDF lub dokument.

Czy jest jeden

slhck
źródło
Chcesz powiedzieć, że chcesz przekonwertować obrazy z pliku pdf na tekst?
DaveParillo
tak, ale nie chcę pliku TXT jako pliku wyjściowego. Chcę zobaczyć dokładnie ten sam plik pdf, ale z możliwością naciśnięcia Ctrl + F i zaznaczenia słów itp.
bardzo trudno będzie przekonwertować ten plik PDF bez utraty formatowania i stylu tekstu. Muszę jeszcze znaleźć oprogramowanie OCR zdolne do właściwego zabezpieczenia dokumentu przed skanowanymi obrazami. przygotować się do pracy z osłem (np. korekta itp.) :)

Odpowiedzi:

5

Możesz pobrać 30-dniową wersję próbną programu Adobe Acrobat Pro i użyć funkcji „Rozpoznawanie tekstu OCR” („Dokument> Rozpoznawanie tekstu OCR> Rozpoznawanie tekstu za pomocą OCR ...”). W oknie dialogowym ustawień wybierz „Obraz do przeszukiwania” jako styl wyjściowy. Pozwoli to zachować obraz strony, ale osadzi tekst OCR, dzięki czemu dokument będzie można przeszukiwać i umożliwi zaznaczanie, kopiowanie i wklejanie tekstu.

Po uruchomieniu OCR musisz potwierdzić lub poprawić słowa, że ​​OCR nie ma pewności co do używania funkcji „Znajdź podejrzanych OCR”.

dłonie
źródło
Chociaż Adobe nie jest darmowy, jest zdecydowanie najbardziej skutecznym rozwiązaniem OCR
James Healy
4

Jeśli masz konto Google, Dokumenty Google zawierają teraz funkcję przesyłania pliku PDF i wykonywania na nim OCR.

Sam go wypróbowałem i to całkiem niezła próba w dobrze sformatowanym pliku PDF.

Formatowanie jest prawie całkowicie zniszczone, ale tekst wydaje się przetrwać.

Richard Lucas
źródło
4

Następujące produkty zostały wymienione w Internecie, ale ich nie użyłem.

OCR online

Terminal OCR

OCR Terminal to internetowa usługa OCR, która wykonuje optyczne rozpoznawanie znaków (OCR) na zeskanowanych obrazach i plikach pdf i przekształca je w dokumenty edytowalne i z możliwością wyszukiwania tekstu.

Bezpłatny OCR

Free-OCR.com to bezpłatne narzędzie OCR (Optical Character Recognition). Możesz użyć tego do wykonania rozpoznawania OCR na każdym dostarczonym obrazie.
Ta usługa jest bezpłatna, nie jest wymagana rejestracja. Nie potrzebujemy również twojego adresu e-mail.
Po prostu prześlij swoje pliki graficzne. Free-OCR pobiera JPG, GIF, TIFF BMP lub PDF ( tylko pierwsza strona ). Jedynym ograniczeniem jest to, że obrazy nie mogą być większe niż 2 MB, nie szersze ani większe niż 5000 pikseli, a limit przesyłania zdjęć wynosi 10 na godzinę.

Maestro Recognition Server jest komercyjny, ale ma wersję próbną online.

Darmowe oprogramowanie

FreeOCR - tylko dla zdjęć.

FreeOCR to program do skanowania i rozpoznawania OCR, w tym darmowy silnik ocser Tesseract znany również jako GUI Tesseract. Zawiera instalator Windows i jest bardzo prosty w obsłudze i obsługuje wielostronicowe tiffy, dokumenty faksowe, a także większość typów obrazów, w tym skompresowane tiffy, których sam silnik Tesseract nie może odczytać. Teraz ma skanowanie Twain.

pdfsandwich - pdf -> konwerter pdf.

pdfsandwich to narzędzie wiersza polecenia do zeskanowanych książek lub czasopism OCR. Jest w stanie rozpoznać układ strony nawet dla tekstu wielokolumnowego.

Zasadniczo pdfsandwich to skrypt otoki, który wywołuje następujące pliki binarne: convert, cuneiform, gs i hocr2pdf. Wiadomo, że działa na systemach Unix i został przetestowany na systemach Linux i MacOS X. Obsługuje równoległe przetwarzanie w systemach wieloprocesorowych.

harrymc
źródło
Właśnie użyłem pdfsandwich. Działa i jest bezpłatny! :) To z pewnością pomoże w mojej pracy, dzięki!
Eddy,
Wygląda na to, że pdfsandwich się zmieniło? tobias-elze.de/pdfsandwich
pioto
@pioto: To nie ja dodałem pdfsandwich powyżej, ale poprawiłem link, jak zasugerowałeś.
harrymc
2

Cuneiform + hocr2pdf + Ghostscript : DIY rozwiązanie typu open source.

I napisali to odpowiedź przedstawiający rozwiązanie obejmujące wersję tego teraz open source Cuneiform systemu OCR i hocr2pdf wraz z Ghostscript do umieszczania stron PDF razem.

To było specjalnie dla Linuksa, ale możesz także pobrać Cuneiform i Ghostscript dla Windows. Nie jestem jednak pewien co do hocr2pdf lub równoważnego.

Jukka Matilainen
źródło
1

Oto bardzo dziwna metoda, która polega na zezwoleniu Google na indeksowanie i OCR dla ciebie na stronie internetowej, a następnie na odzyskanie go.

jtbandes
źródło
tak, widziałem to też ... dziwne Rzeczywiście :) Mogę to zrobić ...
0

Zainstaluj Imagemagick . Otwórz okno lub terminal cmd:

convert myfile.pdf myfile-%02d.jpg

Dane wyjściowe to 1 plik jpg dla każdej strony w pliku pdf, mój_plik-00.jpg, mój_plik-01.jpg itp.

Przekaż każdy obraz za pomocą programu ocr. Nie mam z tym dużego doświadczenia, ale wydaje się, że jest wiele możliwości wyboru.

Konwertuj każdą stronę tekstu z powrotem na pdf. Możesz to zrobić ponownie za pomocą imagemagick, ale są też inne sposoby:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
DaveParillo
źródło
0

Twoje zapytanie wydaje się być skomplikowanym rozwiązaniem problemu, chociaż mogę nie rozumieć go poprawnie. W każdym razie:

Dlaczego nie uzyskać programu do zapisywania plików PDF, który pozwala na wprowadzanie danych bezpośrednio na stronie pdf?

Xavierjazz
źródło
0

Wypróbuj PDFCubed.com Nie trzeba nic instalować, wszystko odbywa się online. Możesz wysłać swoje dokumenty do przetworzenia przez Internet, e-mail lub skrzynkę odbiorczą. Zeskanowane pliki PDF i TIF są konwertowane na tekstowe pliki PDF z możliwością przeszukiwania, a następnie można je odzyskać przez Internet, pocztę e-mail lub Dropbox.

Rlangner
źródło