W programie Adobe Acrobat (jeśli to ważne, używam Pro DC) istnieją trzy opcje OCR:
- „Obraz do przeszukiwania”.
- „Obraz do przeszukiwania (Dokładnie)”.
- „Edytowalny tekst i obrazy”.
Jakie są różnice między tymi trzema opcjami?
W szczególności, co determinuje rozmiar pliku wyjściowego? W tej chwili korzystam z pierwszej i trzeciej opcji i wydaje się, że czasami jedna jest większa, a czasem druga jest większa (a różnice mogą być znaczne).
Jakie (jeśli w ogóle) są kompromisy między jakością, rozmiarem pliku i szybkością przetwarzania OCR?
adobe-acrobat
ocr
Kenny LJ
źródło
źródło
Odpowiedzi:
Artykuł pomocy Adobe Skanuj dokument papierowy do pliku PDF , sekcja Okno dialogowe Rozpoznawanie tekstu - Ustawienia ogólne, definiuje tryby skanowania jako:
Przeanalizuję wpływ tych opcji na rozmiar pliku wyjściowego.
Wszystkie opcje zachowują obraz, który jest prawdopodobnie dużym obiektem.
Przeszukiwalny obraz obraca obraz, który może zmienić jego rozmiar, zwiększając go lub zmniejszając, w zależności od metody ponownego kodowania obrazu stosowanej wewnętrznie przez Adobe
Próbkowanie w dół może zmniejszyć rozdzielczość obrazu i tym samym zmniejszyć jego rozmiar, ale ilość uzyskanego (lub utraconego) miejsca zależy od metody ponownego próbkowania zastosowanej wewnętrznie przez Adobe.
Edytowalny tekst i obrazy syntetyzuje nową czcionkę, która jest następnie zawarta w pliku PDF i doda kilkadziesiąt K-bajtów do rozmiaru wyjściowego.
Podsumowując, nie ma jasnej metody tworzenia najmniejszego pliku PDF. Kwota uzyskana (lub utracona) zależy zarówno od obrazów poddawanych OCR, jak i od tego, jak skutecznie mogą być ponownie skompresowane przez Adobe.
Jeśli celem jest oszczędność miejsca, sugerowałbym użycie edytowalnego tekstu i obrazów , ale zgodnie z opisem w tym artykule Adobe Acrobat , w ustawieniach „Użyj dostępnej czcionki systemowej”, aby uniknąć niestandardowej czcionki. Możesz także usunąć obrazy, jeśli wystarczy tekst OCR.
źródło