Konwerter plików PDF na tekst [zamknięty]

9

Szukam sposobu „pobrania jednym plikiem PDF” i przekonwertowania go na zwykły tekst. Idealnie na OSX lub Linux.

Idealnie byłoby, gdyby rozwiązanie zawierało funkcję OCR, ale niekoniecznie.

Najwyższy priorytet ma coś, co może zająć DOWOLNY plik BEZ konfiguracji.

lustro
źródło

Odpowiedzi:

23

Jest xpdf, który zawiera pdftotextplik binarny.

Pdftotext konwertuje pliki Portable Document Format (PDF) na zwykły tekst.

W systemie Linux dostępny jest instalator. Wygląda na to, że jest również w poppler-utilspakiecie. W systemie OS X można go zainstalować za pomocą Homebrew (najpierw zainstalować), a następnie użyć

brew install homebrew/x11/xpdf

który pobierze pliki źródłowe i skompiluje je dla OS X. Następnie użyj go w następujący sposób:

pdftotext your_pdf_file.pdf

który wygeneruje zwykły plik tekstowy. Istnieje również kilka opcji, sprawdź man pdftotextwięcej szczegółów.

Alternatywą jest poppler w OSX:

brew install poppler

w Debianie i przyjaciołach

apt-get install poppler-utils
slhck
źródło
na dzień dzisiejszy komenda brzmibrew install homebrew/x11/xpdf
Diego Vieira
1
@DiegoVieira Dzięki. Następnym razem możesz zaproponować edycję!
slhck
jakąś zaletę przy użyciu popplera zamiast xpdf / pdftotext?
Gonzalo Bahamondez
brew install Caskroom/cask/pdftotext
Hugo,