Jak mogę usunąć tło strony w skali szarości podczas skanowania dokumentu PDF, zachowując tekst? (Binaryzacja)

9

Mój plik PDF zawiera 600 stron ze zdjęciami tekstu. Ma 2 warstwy .

  • Warstwa 1: Kolor tła

  • Warstwa 2: obraz tekstowy

Chciałbym usunąć wszystkie warstwy obrazu tła z całego pliku PDF, jak pokazano na obrazku.

wprowadź opis zdjęcia tutaj

Czy możesz mi zasugerować jakieś oprogramowanie / narzędzie?

wprowadź opis zdjęcia tutaj

Raghu G.
źródło
Jakiej wersji Ubuntu używasz?
Mitch
Ubuntu 13.10, 64-bitowy
Raghu G,
Zaktualizowano opis pytania.
Raghu G,

Odpowiedzi:

9

Przegląd

Co szukasz są narzędzia, takie jak skanowanie Tailor i unpaper które są zdolne obcinanie , despeckling i usuwanie szumu . Oba narzędzia działają raczej z obrazami niż z plikami PDF, ale można łatwo konwertować między różnymi formatami używanymi przez te aplikacje i plikami PDF za pomocą narzędzi opisanych na końcu tej odpowiedzi.

ScanTailor

Samouczek wideo można znaleźć tutaj . Bardziej obszerna dokumentacja jest dostępna na oficjalnej wiki . Prawdopodobnie najbardziej zainteresuje Cię strona dotycząca trybu wydruku czarno-białego i ustawień filtrów .

Papier

Jeszcze ze unpapersobą nie pracowałem . Z tego, co rozumiem, ma znacznie więcej funkcji niż ScanTailor, ale jest również o wiele trudniejszy do opanowania.

Nie ma interfejsu GUI i będziesz musiał polegać na przełącznikach wiersza poleceń, aby wykonać swoją pracę. Z drugiej strony oznacza to, że konwersje unpapermożna łatwo zautomatyzować za pomocą skryptów.

Można znaleźć kilka przykładów skryptów dotyczących konwersji skanowanie do czerni i bieli oraz usuwanie tła tutaj .


Kilka pomocnych narzędzi podczas pracy z aplikacją Unpaper i ScanTailer

Nie mam wystarczająco dużo czasu, aby napisać pełny samouczek na temat ScanTailor i unpaper¹, ​​ale oto kilka wskazówek dotyczących konwersji między .pdfformatami obrazów obsługiwanymi przez te narzędzia:

  • Możesz użyć pdfimagesdo konwersji dokumentów PDF na .ppmpliki jednostronicowe , które można odczytać unpaper.

    Przykład użycia:

    pdfimages *.pdf ./extracted-images
  • ScanTailor nie przyjmuje .ppmplików jako danych wejściowych. .pngNajpierw będziesz musiał przekonwertować je na inny format, taki jak bezstratny . mogrifyz imagemagickpakietu narzędzi może to zrobić za Ciebie.

    Przykład użycia:

    mogrify -format png *.ppm
  • Format wyjściowy ScanTailor i niepapierowane są .tiffplikami pojedynczych stron . Aby przekonwertować je z powrotem na .pdf, sugerowałbym użycie tiffcpi tiff2pdf.

    Przykład użycia:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

Instalacja

To polecenie zainstaluje wszystkie wyżej wymienione narzędzia:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: Dla każdego, kto to czyta, prosimy o opracowanie obszerniejszej odpowiedzi na podstawie ScanTailor i / lub papieru.

Glutanimate
źródło
Scantailer działa, ale na plikach pdf. Najpierw trzeba by go przekonwertować do jakiegoś formatu obrazu.
Zrobić
@ToDo Tak, jak wskazano w odpowiedzi :).
Glutanimate
Teraz zrozumiałem. Lepiej uporządkować odpowiedź, aby wszystkie informacje o każdym programie były w jednym bloku.
Zrobić
@ToDo Oryginalnym powodem, dla którego umieściłem narzędzia w sekcji spearate, było to, że były one odpowiednie zarówno dla papieru, jak i Scantailor. Masz rację, to było trochę niezorganizowane. Myślę, że teraz powinno być lepiej
Glutanimate
3

Właśnie znalazłem bardzo proste rozwiązanie:

  • zainstaluj gscan2pdf.

  • Otwórz gscan2pdfi zaimportuj plik PDF.

  • narzędzia-> próg. Domyślnie 80% działało dla mnie dobrze.

  • zapisz plik PDF w innym miejscu.

Noam
źródło
1

może Master edytor PDF może ci pomóc, chociaż nie znalazłem, aby zrobić to automatycznie na 600 stronach.

Presbitero
źródło