Jak mogę wyodrębnić zawartość ze skanowanych plików?

1

Użyłem wcześniej funkcji Preview i Automator, aby wyodrębnić tekst z dokumentów PDF, ale nie działają one na skanowanych. Jak mogę wyodrębnić zawartość zeskanowanych plików z zachowanym formatowaniem? Nie chcę płacić za Adobe.

Rosa Reyes
źródło

Odpowiedzi:

0

Jak już powiedziano, zeskanowane dokumenty to obrazy (tekstu). Aby zrozumieć tekst, musisz uruchomić OCR (Optical Character Recognition) nad tym dokumentem.

Dostępnych jest kilka produktów OCR dla komputerów Mac i może być tak, że twój skaner jest dostarczany z takim produktem. Jednak prosząc o formatowanie, żądasz pewnych dość zaawansowanych funkcji, które nie są dostępne w podstawowych produktach. Dlatego możesz oczekiwać, że zapłacisz za to oprogramowanie OCR. Z tego punktu widzenia możesz ponownie rozważyć program Acrobat.

Max Wyss
źródło
Adobe kosztuje, wszelkie inne alternatywy
Rosa
@RosaReyes:… i? Chcesz dość wyszukanej funkcjonalności. Pamiętaj, dostajesz to, co płacisz…
Max Wyss
0

Przez „zeskanowane” przypuszczam, że masz na myśli, że dokument zawiera tylko obrazy tekstu, a nie znaki tekstowe. W takim przypadku należy użyć oprogramowania do optycznego rozpoznawania znaków (OCR).

W systemie operacyjnym Windows istnieją FreeOCR , a9t9 i inne . Istnieje również oprogramowanie na Androida, Linux i Mac, a także dostępne są usługi internetowe oparte na przeglądarce.

DrMoishe Pippik
źródło
Tak, próbowałem tego, ale nie tak zadowolony z wyników, trochę bałaganu w formatowaniu, zbyt wiele luk między słowami i zdaniami.
Rosa Reyes
Znalazłem, że Google OCR dobrze rozwiązał mój problem.
Rosa Reyes