Korzystam z Automatora w połączeniu z Abbys Finereader, aby oglądać folder dla nowych zeskanowanych dokumentów PDF. Program Finereader OCR zapisuje dokument i eksportuje go do nowego pliku PDF w tym samym folderze. Od miesiąca korzystam z ustawienia eksportu „tekst na obrazie strony”. Objaśnienia tego ustawienia w przewodniku użytkownika to:
Ta opcja zapisuje tło i zdjęcia oryginalnego dokumentu i umieszcza nad nimi rozpoznany tekst. Zwykle plik PDF zapisany przy użyciu tej opcji wymaga więcej miejsca na dysku niż plik zapisany z włączoną opcją Tylko tekst i obrazy. Wynikowy dokument PDF można w pełni przeszukiwać. W niektórych przypadkach wygląd wynikowego dokumentu może nieznacznie różnić się od oryginału.
Problem polega na tym, że niektóre pliki PDF, które zostały zeskanowane i „OCRed”, zawierają wiele niewłaściwych znaków, ale właśnie dowiedziałem się o tej awarii.
Czy w jakikolwiek sposób można „przywrócić” do wersji bez OCR? Próbowałem wyeksportować plik PDF jako plik TIFF, ale tam też są nieprawidłowe znaki ...
Jakieś pomysły?
Odpowiedzi:
Ponieważ napisałeś, że wybrałeś „tekst na obrazie strony”, nadal powinieneś mieć oryginalne zeskanowane obrazy w swoich plikach PDF. Aby go odzyskać: Jeśli masz program Adobe Acrobat, istnieje opcja Zapisz jako> Obraz> JPG, TIFF itp. W przeciwnym razie skorzystaj z bezpłatnego edytora pdf, np. PDF-XChange Viewer iw menu Plik wybierz polecenie Eksportuj> Eksportuj do obrazu .. i wybierz format obrazu, np. TIFF. W ten sposób mogę przywrócić dokumenty OCRed PDF (tekst + obraz) z powrotem do oryginalnie zeskanowanych obrazów.
Napisałeś, że próbowałeś je wyeksportować z powrotem do obrazów (w programie Finereader?), A powstałe obrazy nadal zawierały „złe znaki”. Wygląda na to, że nie wybrałeś „tekstu na obrazie strony”, ale opcję, która nie zachowuje zeskanowanego obrazu, ale odbudowuje jego układ za pomocą tekstu OCRed (Adobe Acrobat nazywa to ClearScan). Ta funkcja odbudowuje układ skanu tak blisko, jak to możliwe, z tekstem OCRed w najbardziej odpowiedni sposób i nie utrzymuje zeskanowanego obrazu w pliku PDF.
źródło