Mam plik PDF zeskanowanej książki.
Szukam darmowego oprogramowania, które wykona OCR, a następnie zapewni opcję zapisania go ponownie jako plik PDF lub dokument.
Czy jest jeden
software-rec
pdf
ocr
slhck
źródło
źródło
Odpowiedzi:
Możesz pobrać 30-dniową wersję próbną programu Adobe Acrobat Pro i użyć funkcji „Rozpoznawanie tekstu OCR” („Dokument> Rozpoznawanie tekstu OCR> Rozpoznawanie tekstu za pomocą OCR ...”). W oknie dialogowym ustawień wybierz „Obraz do przeszukiwania” jako styl wyjściowy. Pozwoli to zachować obraz strony, ale osadzi tekst OCR, dzięki czemu dokument będzie można przeszukiwać i umożliwi zaznaczanie, kopiowanie i wklejanie tekstu.
Po uruchomieniu OCR musisz potwierdzić lub poprawić słowa, że OCR nie ma pewności co do używania funkcji „Znajdź podejrzanych OCR”.
źródło
Jeśli masz konto Google, Dokumenty Google zawierają teraz funkcję przesyłania pliku PDF i wykonywania na nim OCR.
Sam go wypróbowałem i to całkiem niezła próba w dobrze sformatowanym pliku PDF.
Formatowanie jest prawie całkowicie zniszczone, ale tekst wydaje się przetrwać.
źródło
Następujące produkty zostały wymienione w Internecie, ale ich nie użyłem.
OCR online
Terminal OCR
Bezpłatny OCR
Maestro Recognition Server jest komercyjny, ale ma wersję próbną online.
Darmowe oprogramowanie
FreeOCR - tylko dla zdjęć.
pdfsandwich - pdf -> konwerter pdf.
źródło
Cuneiform + hocr2pdf + Ghostscript : DIY rozwiązanie typu open source.
I napisali to odpowiedź przedstawiający rozwiązanie obejmujące wersję tego teraz open source Cuneiform systemu OCR i hocr2pdf wraz z Ghostscript do umieszczania stron PDF razem.
To było specjalnie dla Linuksa, ale możesz także pobrać Cuneiform i Ghostscript dla Windows. Nie jestem jednak pewien co do hocr2pdf lub równoważnego.
źródło
Oto bardzo dziwna metoda, która polega na zezwoleniu Google na indeksowanie i OCR dla ciebie na stronie internetowej, a następnie na odzyskanie go.
źródło
Zainstaluj Imagemagick . Otwórz okno lub terminal cmd:
Dane wyjściowe to 1 plik jpg dla każdej strony w pliku pdf, mój_plik-00.jpg, mój_plik-01.jpg itp.
Przekaż każdy obraz za pomocą programu ocr. Nie mam z tym dużego doświadczenia, ale wydaje się, że jest wiele możliwości wyboru.
Konwertuj każdą stronę tekstu z powrotem na pdf. Możesz to zrobić ponownie za pomocą imagemagick, ale są też inne sposoby:
źródło
Twoje zapytanie wydaje się być skomplikowanym rozwiązaniem problemu, chociaż mogę nie rozumieć go poprawnie. W każdym razie:
Dlaczego nie uzyskać programu do zapisywania plików PDF, który pozwala na wprowadzanie danych bezpośrednio na stronie pdf?
źródło
Wypróbuj PDFCubed.com Nie trzeba nic instalować, wszystko odbywa się online. Możesz wysłać swoje dokumenty do przetworzenia przez Internet, e-mail lub skrzynkę odbiorczą. Zeskanowane pliki PDF i TIF są konwertowane na tekstowe pliki PDF z możliwością przeszukiwania, a następnie można je odzyskać przez Internet, pocztę e-mail lub Dropbox.
źródło