Dzisiaj otrzymałem plik PDF od naszego dostawcy, który zawierał kilka wydrukowanych i zeskanowanych stron z podpisami itp. Otworzyłem go w programie Acrobat Reader DC. Ku mojemu zdziwieniu tekst z wyraźnie zeskanowanych obrazów mógł zostać wybrany i skopiowany jako tekst. Zobacz zrzut ekranu:
Najwyraźniej kryje się za tym OCR, ponieważ kopiowany tekst zawiera błędy. Ale jak to możliwe? Nigdy wcześniej tego nie widziałem, jak można to stworzyć?
pdf
adobe-acrobat
adobe-reader
ocr
Vojtěch Dohnal
źródło
źródło
Odpowiedzi:
Nie ma to (w przeciwieństwie do niektórych innych odpowiedzi tutaj) najprawdopodobniej żadnego związku z programem Acrobat.
Większość (wszystkich ?!) profesjonalnych skanerów dokumentów i większość półprofesjonalnych automatycznie wykona OCR po wybraniu opcji „Zapisz jako PDF” i zaznaczeniu pola wyboru „do przeszukiwania” w ustawieniach. Tańsze modele „konsumenckie” wykonują OCR na podłączonym komputerze, typowe skanery sieciowe robią to wewnętrznie.
Słowo „przeszukiwalne” oznacza nic więcej i nic więcej niż to, że skaner wykona OCR, a następnie wygeneruje stronę ze zeskanowanymi bitmapami i nałoży na nie niewidoczne znaki z OCR, każdy umieszczony nad odpowiednim znakiem na mapie bitowej.
W ten sposób możesz wyszukiwać, a także wybierać, kopiować i wklejać „bitmapę” jak za pomocą magii. Jednak to wcale nie jest magia. W rzeczywistości kopiujesz tylko niewidzialny tekst.
Skaner może także wykonać dodatkową magię, na przykład skomponowanie dużego obrazu z wielu małych płytek, które również zostaną ponownie wykorzystane. Powoduje to znacznie mniejszy rozmiar dokumentu, niż byłoby to w rzeczywistości możliwe, ale może również prowadzić do zabawnych niespodzianek (nie tak zabawnych, jeśli Ci się przydarzą!), Takich jak Xerox, zmienia historię rachunków , jak na ironię, nawet jeśli nie wykonuje się OCR, w zależności na oprogramowaniu.
źródło
Zasadniczo program wykonuje OCR na pliku wejściowym, a następnie umieszcza niewidoczną warstwę tekstu na obrazie. Alternatywnie może również umieścić widoczną warstwę tekstu pod obrazem, dając ten sam efekt.
Po wybraniu czegoś obraz nie ma znaczenia, ponieważ warstwa tekstowa zostaje zaznaczona.
Istnieje kilka sposobów. Biorąc pod uwagę, że Acrobat został już zasugerowany, dodam kilka bezpłatnych opcji (i na szczęście nie musisz zmuszać systemu Windows do korzystania z nich).
PDF-X Zmień przeglądarkę
Jest to macierzysty program Windows firmy Tracker Software . Wersja bezpłatna działa dobrze w Wine, jeśli używasz wersji 32-bitowej z 32-bitowym prefiksem, dlatego możesz jej używać w systemach Windows, macOS i Linux. W dwóch ostatnich przypadkach potrzebujesz odpowiednio PlayOnMac lub PlayOnLinux.
Oto zdjęcie z tej odpowiedzi, którą zostawiłem na Ask Ubuntu:
OCRmyPDF
Jest to program wieloplatformowy napisany w języku Python , oparty na Ghostscript, Tesseract i Unpaper. Z dokumentów:
Można go łatwo zainstalować na pochodnych Debiana i Ubuntu:
Lub na macOS:
W systemie Windows musisz użyć obrazu Docker. Szczegółowe informacje można znaleźć w oficjalnych dokumentach.
Użycie jest bardzo proste i sugeruję użycie opcjonalnych parametrów
-d
(prostowania) i-c
(czystego) parametrów w celu uzyskania lepszych wyników. Wyprostuje każdą stronę i usunie małe kropki / niedoskonałości przed uruchomieniem procesu OCR.Możesz (i powinieneś) podać język
-l
.Oto przykład zaczerpnięty z tego wypaczonego dokumentu napisanego w języku włoskim:
Polecenie, którego użyłem to:
Narzędzia online
Istnieje kilka narzędzi online, które robią to samo. Warto zauważyć, że PDF24 zawiera bezpłatną internetową wersję OCRmyPDF, z której można korzystać bez ograniczeń.
Zobacz też:
źródło
Jest to prawdopodobnie spowodowane funkcją Acrobat OCR :
źródło
Ze strony Adobe
źródło