Dzięki za wszystkie odpowiedzi, wszyscy. Z twoją pomocą udało mi się skompilować listę poleceń, które mogą wyodrębnić liczbę stron z prawie wszystkich odpowiednich dokumentów biurowych:
DOCX / PPTX
unzip -p 'sample.docx' docProps/app.xml | grep -oP '(?<=\<Pages\>).*(?=\</Pages\>)'
unzip -p 'sample.pptx' docProps/app.xml | grep -oP '(?<=\<Slides\>).*(?=\</Slides\>)'
Uwaga : unzip
można zainstalować za pomocą sudo apt-get install unzip
.
DOC / PPT
wvSummary sample.doc | grep -oP '(?<=of Pages = )[ A-Za-z0-9]*'
wvSummary sample.ppt | grep -oP '(?<=of Slides = )[ A-Za-z0-9]*'
Uwaga : wvSummary
(wielkość liter ma znaczenie!) Jest częścią wv
pakietu. Zainstaluj za pomocą sudo apt-get install wv
.
ODT
unzip -p sample.odt meta.xml | grep -oP '(?<=page-count=")[ A-Za-z0-9]*'
PDF
pdfinfo sample.pdf | grep -oP '(?<=Pages: )[ A-Za-z0-9]*'
Uwaga: pdfinfo
jest częścią poppler-utils
i powinien być preinstalowany na Ubuntu.
DJVU
djvused -e "n" sample.djvu
Uwaga: djvused
jest częścią djvulibre-bin
pakietu i może być instalowany z sudo apt-get install djvulibre-bin
.
Nie znalazłem sposobu na wyodrębnienie
odt
informacji o pliku takpdfinfo
, jak to robi, ale możesz utworzyć szybki skrypt do użyciapdfinfo
zodt
plikami, konwertując każdy plik ODT do formatu PDF, a następnie usuwając przekonwertowany plik, jeśli nie będziesz go używać:Mam nadzieję, że to ci pomogło.
źródło