Mój plik PDF zawiera 600 stron ze zdjęciami tekstu. Ma 2 warstwy .
Warstwa 1: Kolor tła
Warstwa 2: obraz tekstowy
Chciałbym usunąć wszystkie warstwy obrazu tła z całego pliku PDF, jak pokazano na obrazku.
Czy możesz mi zasugerować jakieś oprogramowanie / narzędzie?
software-recommendation
pdf
image-processing
Raghu G.
źródło
źródło
Odpowiedzi:
Przegląd
Co szukasz są narzędzia, takie jak skanowanie Tailor i unpaper które są zdolne obcinanie , despeckling i usuwanie szumu . Oba narzędzia działają raczej z obrazami niż z plikami PDF, ale można łatwo konwertować między różnymi formatami używanymi przez te aplikacje i plikami PDF za pomocą narzędzi opisanych na końcu tej odpowiedzi.
ScanTailor
Samouczek wideo można znaleźć tutaj . Bardziej obszerna dokumentacja jest dostępna na oficjalnej wiki . Prawdopodobnie najbardziej zainteresuje Cię strona dotycząca trybu wydruku czarno-białego i ustawień filtrów .
Papier
Jeszcze ze
unpaper
sobą nie pracowałem . Z tego, co rozumiem, ma znacznie więcej funkcji niż ScanTailor, ale jest również o wiele trudniejszy do opanowania.Nie ma interfejsu GUI i będziesz musiał polegać na przełącznikach wiersza poleceń, aby wykonać swoją pracę. Z drugiej strony oznacza to, że konwersje
unpaper
można łatwo zautomatyzować za pomocą skryptów.Można znaleźć kilka przykładów skryptów dotyczących konwersji skanowanie do czerni i bieli oraz usuwanie tła tutaj .
Kilka pomocnych narzędzi podczas pracy z aplikacją Unpaper i ScanTailer
Nie mam wystarczająco dużo czasu, aby napisać pełny samouczek na temat ScanTailor i unpaper¹, ale oto kilka wskazówek dotyczących konwersji między
.pdf
formatami obrazów obsługiwanymi przez te narzędzia:Możesz użyć
pdfimages
do konwersji dokumentów PDF na.ppm
pliki jednostronicowe , które można odczytaćunpaper
.Przykład użycia:
ScanTailor nie przyjmuje
.ppm
plików jako danych wejściowych..png
Najpierw będziesz musiał przekonwertować je na inny format, taki jak bezstratny .mogrify
zimagemagick
pakietu narzędzi może to zrobić za Ciebie.Przykład użycia:
Format wyjściowy ScanTailor i niepapierowane są
.tiff
plikami pojedynczych stron . Aby przekonwertować je z powrotem na.pdf
, sugerowałbym użycietiffcp
itiff2pdf
.Przykład użycia:
Instalacja
To polecenie zainstaluje wszystkie wyżej wymienione narzędzia:
¹: Dla każdego, kto to czyta, prosimy o opracowanie obszerniejszej odpowiedzi na podstawie ScanTailor i / lub papieru.
źródło
Właśnie znalazłem bardzo proste rozwiązanie:
zainstaluj
gscan2pdf
.Otwórz
gscan2pdf
i zaimportuj plik PDF.narzędzia-> próg. Domyślnie 80% działało dla mnie dobrze.
zapisz plik PDF w innym miejscu.
źródło
może Master edytor PDF może ci pomóc, chociaż nie znalazłem, aby zrobić to automatycznie na 600 stronach.
źródło