Jak mogę usunąć tło strony w skali szarości podczas skanowania dokumentu PDF, zachowując tekst? (Binaryzacja)

9

Mój plik PDF zawiera 600 stron ze zdjęciami tekstu. Ma 2 warstwy .

Warstwa 1: Kolor tła
Warstwa 2: obraz tekstowy

Chciałbym usunąć wszystkie warstwy obrazu tła z całego pliku PDF, jak pokazano na obrazku.

wprowadź opis zdjęcia tutaj

Czy możesz mi zasugerować jakieś oprogramowanie / narzędzie?

wprowadź opis zdjęcia tutaj

software-recommendation pdf image-processing Raghu G.
źródło

Jakiej wersji Ubuntu używasz?

Mitch

Ubuntu 13.10, 64-bitowy

Raghu G,

Zaktualizowano opis pytania.

Raghu G,

9

Przegląd

Co szukasz są narzędzia, takie jak skanowanie Tailor i unpaper które są zdolne obcinanie , despeckling i usuwanie szumu . Oba narzędzia działają raczej z obrazami niż z plikami PDF, ale można łatwo konwertować między różnymi formatami używanymi przez te aplikacje i plikami PDF za pomocą narzędzi opisanych na końcu tej odpowiedzi.

ScanTailor

Samouczek wideo można znaleźć tutaj . Bardziej obszerna dokumentacja jest dostępna na oficjalnej wiki . Prawdopodobnie najbardziej zainteresuje Cię strona dotycząca trybu wydruku czarno-białego i ustawień filtrów .

Papier

Jeszcze ze unpapersobą nie pracowałem . Z tego, co rozumiem, ma znacznie więcej funkcji niż ScanTailor, ale jest również o wiele trudniejszy do opanowania.

Nie ma interfejsu GUI i będziesz musiał polegać na przełącznikach wiersza poleceń, aby wykonać swoją pracę. Z drugiej strony oznacza to, że konwersje unpapermożna łatwo zautomatyzować za pomocą skryptów.

Można znaleźć kilka przykładów skryptów dotyczących konwersji skanowanie do czerni i bieli oraz usuwanie tła tutaj .

Kilka pomocnych narzędzi podczas pracy z aplikacją Unpaper i ScanTailer

Nie mam wystarczająco dużo czasu, aby napisać pełny samouczek na temat ScanTailor i unpaper¹, ale oto kilka wskazówek dotyczących konwersji między .pdfformatami obrazów obsługiwanymi przez te narzędzia:

Możesz użyć pdfimagesdo konwersji dokumentów PDF na .ppmpliki jednostronicowe , które można odczytać unpaper.

Przykład użycia:
```
pdfimages *.pdf ./extracted-images
```
ScanTailor nie przyjmuje .ppmplików jako danych wejściowych. .pngNajpierw będziesz musiał przekonwertować je na inny format, taki jak bezstratny . mogrifyz imagemagickpakietu narzędzi może to zrobić za Ciebie.

Przykład użycia:
```
mogrify -format png *.ppm
```
Format wyjściowy ScanTailor i niepapierowane są .tiffplikami pojedynczych stron . Aby przekonwertować je z powrotem na .pdf, sugerowałbym użycie tiffcpi tiff2pdf.

Przykład użycia:
```
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
```

Instalacja

To polecenie zainstaluje wszystkie wyżej wymienione narzędzia:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: Dla każdego, kto to czyta, prosimy o opracowanie obszerniejszej odpowiedzi na podstawie ScanTailor i / lub papieru.

Glutanimate
źródło

Scantailer działa, ale na plikach pdf. Najpierw trzeba by go przekonwertować do jakiegoś formatu obrazu.

Zrobić

@ToDo Tak, jak wskazano w odpowiedzi :).

Glutanimate

Teraz zrozumiałem. Lepiej uporządkować odpowiedź, aby wszystkie informacje o każdym programie były w jednym bloku.

Zrobić

@ToDo Oryginalnym powodem, dla którego umieściłem narzędzia w sekcji spearate, było to, że były one odpowiednie zarówno dla papieru, jak i Scantailor. Masz rację, to było trochę niezorganizowane. Myślę, że teraz powinno być lepiej

Glutanimate

3

Właśnie znalazłem bardzo proste rozwiązanie:

zainstaluj gscan2pdf.
Otwórz gscan2pdfi zaimportuj plik PDF.
narzędzia-> próg. Domyślnie 80% działało dla mnie dobrze.
zapisz plik PDF w innym miejscu.

Noam
źródło

1

może Master edytor PDF może ci pomóc, chociaż nie znalazłem, aby zrobić to automatycznie na 600 stronach.

Presbitero
źródło

Jak mogę usunąć tło strony w skali szarości podczas skanowania dokumentu PDF, zachowując tekst? (Binaryzacja)

Odpowiedzi: