Mam dość duży (~ 100 MB) dokument PDF z dużą ilością obrazów (jako ilustracje i obrazy tła) i chciałbym mieć kopię tego pliku pdf bez obrazów, ale nie mogę się dowiedzieć, jak to zrobić Zrób to.
Nie mówię o konwertowaniu go tylko na tekst, chciałbym zachować akapity / tabele / wiele kolumn takimi, jakie są.
Czuję się swobodnie z linii poleceń i mam kilka komputerów z różnymi dystrybucjami, których mogę używać.
command-line
pdf
Ornux
źródło
źródło
Odpowiedzi:
Nie ma go w repozytoriach, ale można znaleźć plik do pobrania ( wstępnie skompilowany lub źródłowy ) na ich stronie internetowej .
Podręcznik :
źródło
Najnowsze wersje Ghostscript również mogą to zrobić. Po prostu dodaj parametr
-dFILTERIMAGE
do swojego polecenia.Są jeszcze dwa nowe parametry, które można dodać w celu selektywnego usuwania typów treści „wektor” i „tekst” :
-dFILTERIMAGE
: tworzy wynik, w którym wszystkie obrazy rastrowe są usuwane.-dFILTERTEXT
: tworzy wynik, w którym wszystkie elementy tekstowe są usuwane.-dFILTERVECTOR
: tworzy wynik, w którym wszystkie rysunki wektorowe są usuwane.Dowolne dwie z tych opcji można łączyć. (Jeśli połączysz wszystkie 3, wszystkie strony zostaną wygaszone ...)
Przykłady
Oto zrzut ekranu z przykładowej strony PDF, która zawiera wszystkie 3 typy treści wspomniane powyżej:
Zrzut ekranu oryginalnej strony PDF zawierającej elementy „obraz”, „wektor” i „tekst”.
Uruchomienie następujących 6 poleceń spowoduje utworzenie wszystkich 6 możliwych wariantów pozostałej zawartości:
Poniższy obraz ilustruje wyniki:
Górny rząd, od lewej: usunięto cały „tekst”; wszystkie „obrazy” zostały usunięte; wszystkie „wektory” usunięte. Dolny rząd, od lewej: zachowano tylko „tekst”; zachowano tylko „obrazy”; zachowano tylko „wektory”.
źródło
Choć @Rinzwind odpowiedź jest Right Thing , chciałbym tylko, aby skomentować rozwiązanie „połowie drogi”. Zwykle można znacznie zmniejszyć rozmiar obrazów za pomocą ghostscript z
... to jest naprawdę przydatne do korekty. Strona podręcznika do pisania PDF jest tutaj .
źródło
/screen
ustawi (między innymi) rozdzielczość obrazów bitmapowych na 72dpi. Tak więc, jeśli masz obrazy w mniejszym DPI, może to zwiększyć rozmiar pliku. To dlatego użyłem słowa „normalnie” (w znaczeniu „nie zawsze, ale dość często”). Możesz głosować dowolnie.for s in screen default ; do gs -o /dev/null -sDEVICE=pdfwrite -dPDFSETTINGS=/${s} -c "currentpagedevice {exch ==only ( ) print === } forall" | sort | tee ghostscript---pdfwrite-PDFSETTINGS-${s}--pagedevice-settings.txt; done
. Wytworzy dwa pliki tekstowe, które można porównać za pomocąsdiff -sbB $[file1}.txt ${file2}.txt
. Teraz znasz dokładnie i całkowicie wszystkie różne ustawienia wprowadzone przez-dPDFSETTINGS=/screen
!/screen
niż w/default
--- 72dpi kontra 150dpi, zoptymalizowany, odrzuć podgląd EPS ... ale hej, nie jest to duży problem. Ludzie będą testować i wybierać lepsze rozwiązanie./screen
dały naprawdę złe wyniki. Być może moja pamięć zawodzi, albo ją pomieszałem/epub
. Polecenie, które ci dałem, pochodziło z pamięci, ponieważ byłem całkiem pewien, że pokaże, o co mi chodzi. Teraz ponownie go uruchomiłem, nie widzę już tego, czego się spodziewałem: bardziej rozbudowane testy przeprowadziłem kilka lat temu. Następnie wiele czcionek (CID? / CFF?) Otrzymało zrasteryzowane, powiększające się rozmiary wynikowych plików PDF. Muszę ponownie odwiedzić tę kwestię, gdy będę miał więcej czasu ... :-)Możesz użyć głównego edytora pdf, usunąć te obrazy i zapisać jako nowy plik pdf. Możesz pobrać go z centrum oprogramowania Ubuntu.
źródło