Odkrywanie metadanych dotyczących pliku PDF

32

Załóżmy, że mam plik PDF i chcę uzyskać wszelkie dostępne metadane dla tego pliku PDF. Jakiego narzędzia należy użyć?

Uważam, że informacje, które najbardziej interesują mnie, to rozmiar papieru, coś, czego przeglądarki plików PDF zwykle nie zgłaszają. Np. Czy jest to format Letter, Legal, A4 czy coś innego? Ale inne dostępne informacje mogą również być interesujące.

EDYCJA: Oto przydatny przewodnik po rozmiarach papieru, dzięki @terdon.

Faheem Mitha
źródło
Dziwne. Dlaczego ktoś miałby głosować za tym pytaniem? Chcesz to wyjaśnić?
Faheem Mitha

Odpowiedzi:

39

Jednym z kanonicznych narzędzi do tego jest pdfinfoxpdf, o ile pamiętam. Przykładowe dane wyjściowe:

[0 1017 17:10:17] ~/temp % pdfinfo test.pdf
Creator:        TeX
Producer:       pdfTeX-1.40.14
CreationDate:   Sun May 18 09:53:06 2014
ModDate:        Sun May 18 09:53:06 2014
Tagged:         no
Form:           none
Pages:          1
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      19700 bytes
Optimized:      no
PDF version:    1.5
Ulrich Schwarz
źródło
1
W Debianie jest to przynajmniej część poppler-utils. Mam tutaj plik, który pdfinfo zgłasza jako 595,2 x 841,44 pkt. Ale nie jest to zgłaszane jako A4. Co decyduje o oznaczeniu go jako A4?
Faheem Mitha
2
Nazwy są zakodowane na stałe : litera to 612 ± 0,1 x 792 ± 0,1, magiczne rozmiary dla DIN / ISO A to (wszystkie ± 1 pkt): 3370.98, 2383.64, 1685.49, 1191.82, 842.74, 595,91, ..., więc wydaje się Twoja strona jest trochę za wąska, aby pdfinfoją podnieść.
Ulrich Schwarz
Rozumiem trochę kodu if ((fabs(w - 612) < 0.1 && fabs(h - 792) < 0.1) || (fabs(w - 792) < 0.1 && fabs(h - 612) < 0.1))?
Faheem Mitha
To litera, formaty A są w pętli z literą sqrt(2)s.
Ulrich Schwarz
13

Innym narzędziem wartym uwagi jest exiftool . Może nie być odpowiednim narzędziem w konkretnym przypadku, ponieważ nie zgłasza żadnych informacji na temat geometrii dokumentu, ale ogólnie jest prawdopodobnie najbardziej kompletnym narzędziem do sprawdzania metadanych PDF.

Oto przykład polecenia, które wyświetli wszystkie dostępne meta informacje ( -a), posortowane według grup ( -G1):

exiftool -a -G1 "$File"

Oficjalna dokumentacja zawiera przegląd obsługiwanych tagów związanych z PDF:

Możesz zainstalować exiftool na Debian / Ubuntu za pomocą:

sudo apt-get install libimage-exiftool-perl

Jeśli bardziej interesuje Cię GUI, możesz wypróbować mój projekt PDFMtEd . Jest to zestaw narzędzi, które służą jako graficzne nakładki do exiftool i umożliwiają przeglądanie i edycję metadanych PDF.

Oto kilka zrzutów ekranu:

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Glutanimate
źródło