Jak zapisać plik PDF z obrazem jako obraz?

33

Mam plik PDF, który zawiera zeskanowany obraz dokumentu. Chcę zapisać zawartość tego pliku PDF jako obraz, aby móc go uruchomić za pomocą programu OCR, który akceptuje tylko pliki typu .jpg, .png i .gif.

Jak zapisać / przekonwertować ten plik PDF na jeden z tych formatów obrazu?

EDYCJA: Jednym ze sposobów, w jaki to zrobiłem, jest kliknięcie każdej strony. Skopiuj do schowka. Wklej do Paint.net, a następnie zapisz. Jest to jednak kłopotliwe, ponieważ wydaje się, że można wybrać tylko jedną stronę na raz w programie Acrobat Reader.

Chłopak
źródło

Odpowiedzi:

20

Proszę zwrócić szczególną uwagę na odpowiedź pooryoricka , w której wskazuje on, w jaki sposób odpowiedź Śleske jest w rzeczywistości o wiele lepszą odpowiedzią na ten konkretny problem.


Użyj GhostScript . To polecenie działa dla mnie:

gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf

Istnieje wiele pseudo-urządzeń png, różniących się głębią kolorów: pngmono, pnggray, png16, png256, png16m i pngalpha. Wybierz ten, który najbardziej Ci odpowiada.

Możesz także użyć formatu JPEG, ale jeśli nie masz problemu z miejscem na dysku, potrzebujesz tak wysokiej jakości, jak możesz zarządzać swoim OCR, a to nie jest JPEG.

GhostScript nie ma już obsługi gif, ale nie mogę sobie wyobrazić, dlaczego jest to potrzebne, co z obsługą png256.

wfaulk
źródło
Uwielbiam GhostScript, a jeśli chcesz wygodnego interfejsu GUI do ustawiania opcji, przeglądania itp. Wypróbuj GSview pages.cs.wisc.edu/~ghost/gsview
Dennis
Czy wynik będzie jednym wielkim obrazem?
Xonatron
1
@Xonatron: Nie. Jeden obraz na stronie. Nazwa %dpliku wyjściowego to zmienna, która jest zastępowana numerem strony. (Niemal na pewno liczby surowe, nie liczba w pliku PDF.)
wfaulk
20

Zainstaluj Imagemagick . Otwórz okno lub terminal cmd:

convert myfile.pdf myfile.jpg

Dane wyjściowe to 1 plik jpg dla każdej strony w pliku pdf, test-0.jpg, test-1.jpg itp.

DaveParillo
źródło
+1 dla ImageMagick, ale -2 za zasugerowanie niewłaściwej pracy. JPEG jest dobry do zdjęć, ale jest to najgorszy format, jaki można zastosować, gdy masz ostre obrazy i wysoki kontrast (jak zwykle w przypadku czarnego tekstu / znaków na białym tle). Ponadto ImageMagick nie wykonuje samej konwersji, używa Ghostscript w tle jako „delegowany” slave. Więc robienie tego za pomocą Ghostscript daje ci większą kontrolę nad używanymi parametrami. A potem wybierz TIFF (nie JPEG) jako format wyjściowy, na miłość boską!
Kurt Pfeifle
1
Uwaga dotycząca systemu Windows: najpierw zainstaluj 32-bitowy Ghostscript.
Użytkownik
2
Bądź świadom density, depthi qualityflagi, które mogą pomóc zoptymalizować wydajność. Na przykład: convert -density 300 -depth 8 -quality 85 a.pdf a.png Więcej informacji
Nick
13

Jest również pdfimagesz narzędzi Xpdf (dostępnych na stronie XpdfReader ). Nie przekształci całej strony PDF w obraz, a raczej wyodrębni osadzone obrazy z pliku PDF.

Jest to przydatne, jeśli plik PDF zawiera tekst i obrazy, a chcesz tylko obrazy. Ponadto wyodrębni obrazy w ich oryginalnym formacie, więc nie wiąże się to z utratą jakości (w przeciwieństwie do programów, które renderują całą stronę, a następnie przekształcają ją np. W JPEG). W zależności od potrzeb może to być przydatne.


Proste użycie:

pdfimages -j -list mydocument.pdf mydocument-images

Będzie to odczytać pliku wejściowego mydocument.pdf, wyodrębnić wszystkie obrazy i zapisywać je do poszczególnych plików o nazwie mydocument-images-0000.jpg, mydocument-images-0001.jpgitd.

Opcja -jumożliwia zapisywanie osadzonych obrazów skompresowanych JPEG jako pliki JPEG, a nie jako pliki PBM / PGM / PPM (które są nieskompresowane i duże). Należy pamiętać, że obrazy mogą być nadal zapisywane jako pliki PBM / PGM / PPM, jeśli w taki sposób zostały zapisane w pliku wejściowym PDF.

Śleske
źródło
Dla porównania, proste użycie to pdfimages -j "yourinputfile.pdf" "outputimages"„outputimages-0000.ppm” (lub „outputimages-0000.jpg”, jeśli mają odpowiedni format). Przykłady .NET można przeszczepić stąd lub tutaj
drzaus
Zastrzeżenie polega na tym, że może nie być w stanie zapisać pliku jako JPG, a raczej PPM
drzaus
11

Możesz to zrobić za pomocą Adobe Reader:

  1. Kliknij obraz. Zostanie podświetlone.
  2. Skopiuj (Ctrl-C) i wklej go do Paint.
  3. Zapisz jako dowolny typ pliku, który lubisz.
Hemant
źródło
2
co ciekawe, Adobe Reader ma ustawienie zastępujące dpi zdjęć wykonanych za pomocą narzędzia do robienia zdjęć, po ustawieniu na 300 dpi otrzymasz migawki, które są gotowe do drukowania (domyślnie jest podejmowana rozdzielczość ekranu, która na ogół jest zbyt niska do ponownego wykorzystania w innych pracach)
Stijn Sanders
3
+1 za prostotę. Większość czytników PDF pozwala na to.
Decio Lira,
4
Co jeśli twój plik PDF ma 10000 stron obrazów? Czy musisz to robić 10000 razy?
Guy
9

Z wyjątkiem odpowiedzi dotyczącej obrazów pdf, wszystkie pozostałe odpowiedzi nie wspominają, że ich rozwiązania faktycznie transkodują osadzone obrazy. Tzn. Te rozwiązania nie tylko wydobywają oryginalny obraz, ale modyfikują go, być może ze szkodą dla obrazu, podczas procesu. Tylko pdfimages wyodrębnia oryginalny obraz. Dotyczy to Ghostscript, Imagemagick, Adobe Reader, PDFFill, PDF Xchange Viewer, OS X Preview i większości innych programów PDF.

pooryorick
źródło
Biorąc pod uwagę kontekst pytania, jest to bardzo dobra uwaga.
wfaulk
FWIW, „PDFill PDF Tools” pozwala ustawić DPI dla zapisu jako obrazu, bardzo przydatne. W ten sposób każda strona (począwszy od tekstu, obrazów, dowolnych obiektów) zostaje zapisana, na przykład, w wysokiej rozdzielczości PNG o wymiarach 4961 x 6520.
Chris O
4

PDFill PDF Tools to prawdopodobnie najłatwiejszy sposób konwersji plików PDF na obrazy w systemie Windows. Pozwoli Ci to wyeksportować wszystkie strony w pliku PDF, aby oddzielić zdjęcia w jednym ujęciu. Posiada również wiele innych funkcji dostępnych za darmo, które są dostępne tylko w innych przeglądarkach PDF, jeśli kupisz wersję komercyjną lub „Pro”.

Użyj przycisku „Konwertuj PDF na obrazy” (przycisk nr 10) na zrzucie ekranu poniżej.

PDFill Zrzut ekranu narzędzia PDF

Jeśli chcesz połączyć obrazy w jeden bardzo wysoki obraz, aby wystarczyło tylko podać jeden plik do programu OCR, możesz użyć IrfanView

obrabować
źródło
zwróć uwagę, że spowoduje to zainstalowanie dwóch różnych narzędzi w twoim systemie. Najważniejszym z nich jest PDFill Editor, którego nie potrzebujesz. Przejdź do menu Start, aby je otworzyć. Obraz został zapisany, gdy zdałem sobie sprawę, że coś było nie tak.
ufotds
Tak, chyba nie wspomniałem, że instaluje również wersję shareware edytora PDFill, a także drukarkę PDF. Wszelkie pliki utworzone za pomocą edytora PDFill będą miały znak wodny, chyba że kupisz edytor za 19,99 USD, ale narzędzie PDFill PDF Tools Free nie wymaga zakupu. W wersji, którą posiadam, nie możesz odinstalować PDFill Editor bez odinstalowania PDFill PDF Tools Free, ale zainstalowanie PDFill Editor nic nie zaszkodzi.
rob
2

Ponieważ nie podałeś tagu OS, dołączę odpowiedź OSX:

Pliki PDF domyślnie otwierają się w Preview.app, który pozwala na użycie File -> Save-As:

  • GIF
  • ICNS
  • JPEG
  • JPEG-2000
  • BMP
  • OpenEXR
  • Photoshop
  • PNG
  • TGA
  • SPRZECZKA
Jezioro
źródło
1

Również PDF Xchange Viewer (bezpłatny) wykona eksport do pliku. Plik → Eksportuj → Eksportuj do obrazu.

Nie tylko to, ale uważam, że jest to najlepsza darmowa przeglądarka plików PDF dla systemu Windows i ma kilka fajnych funkcji znaczników. Mam licencję na Adobe Acrobat i nadal wolę to, chyba że robię obszerną edycję, co rzadko się zdarza.

wfaulk
źródło
Wyglądało to obiecująco, dopóki nie odkryłem, że opcja eksportu do obrazu jest wyłączona w plikach PDF zabezpieczonych hasłem.
Mitch
1

(Non-free) Acrobat Professional robi to:

Zaawansowane-> Przetwarzanie dokumentów-> Eksportuj wszystkie obrazy ...

ufotds
źródło
0

Jeśli plik ma mniej niż 5 MB i nie martwisz się o prywatność / poufność, to przydatna usługa online pod adresem http://www.go2convert.com/, która może wykonać wiele konwersji graficznych (w tym pdf na JPEG)

sgmoore
źródło
Po prostu spróbowałem i wyświetlił komunikat o błędzie „Przepraszamy! Nie można poprawnie przekonwertować tego obrazu”.
Guy
-1

Jeśli obraz przekracza rozmiar ekranu, możesz użyć FastStone Capture (funkcja „Capture Scrolling Window”) i zapisać obraz jako JPEG.

alternatywny tekst

Gafel
źródło
To bardzo okrągły sposób na zrobienie zdjęcia. OP ma już lepsze rozwiązanie (zaznacz stronę w Acrobat).
sleske