Czy istnieje jakiś konwerter plików PDF na tekst?

21

Potrzebuję plików PDF do tekstu, aby móc wyszukiwać je zbiorczo z wiersza polecenia. Czy jest jakiś konwerter dla Ubuntu, OBSD lub podobnej dystrybucji?

Być może powiązany post, OCR z ubuntu tutaj .

otto
źródło
3
Podobne pytanie w Super User
Gilles 'SO- przestań być zły'
Jeśli jest to „prawdziwy” plik PDF (wykonany z tekstu itp.), Najlepszym wyborem jest pdftotext. Jeśli jest to obraz, najlepiej postawić na OCR.
vonbrand
1
Zawsze używam pdftotext= pdfcat.
izomorfizmy
podobne pytanie na askubuntu
Trevor Boyd Smith

Odpowiedzi:

22

Masz wiele opcji!

pdftotextz popplera już wspomniano.

Istnieje program Haskell o nazwie,pdf2line który działa dobrze.

Caliber „s ebook-convertprogramu poleceń (lub sam kaliber) ma innej opcji; potrafi konwertować PDF na zwykły tekst lub inny format ebook (RTF, ePub), moim zdaniem generuje lepsze wyniki niż pdftotext, chociaż jest znacznie wolniejszy.

ebook-convert file.pdf file.txt

AbiWord może konwertować między dowolnymi znanymi formatami z wiersza poleceń i przynajmniej opcjonalnie ma wtyczkę importu PDF:

abiword --to=txt file.pdf

Jeszcze inna opcja pochodzi podofotextextractz biblioteki narzędzi podofo PDF. Tak naprawdę tego nie próbowałem.

Jeśli połączysz dwa narzędzia Ghostscript pdf2psi ps2asciimasz jeszcze jedną opcję.

Mogę wymyślić jeszcze kilka metod, ale na razie zostawię to. ;)

frabjous
źródło
Calibre's ebook-convert ... Czy widziałeś, co robi z ligaturami? bleargh. powiedzmy to tak: nie jest to bardzo skuteczny program. pdftotext jest znacznie bardziej wierny. nigdy nie odkryłem żadnych błędów w danych wyjściowych.
ixtmixilix
1
Możesz użyć mniej do przeglądania plików pdf jako tekstu. Wywołuje preprocesor, tj. Lesspipe, do wywoływania pdftotext lub podobnych narzędzi.
Daniel Näslund,
pdftotextdaje dokładniejsze wyniki niż ebook-converti jest bardzo szybki. ebook-convertjest powolny.
Amit Patel
pdftotextz -layoutopcjami skały! calibrewymaga instalacji ponad 600 MB! To szalone)
Stalinko
9

Możesz konwertować pliki PDF na tekst w wierszu poleceń za pomocą pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspakiet).

Możesz użyć Recoll (Ubuntu: recoll ; OpenBSD: brak portu, ale jest jeden dla FreeBSD .) Do przeszukiwania różnych sformatowanych typów dokumentów tekstowych, w tym PDF. Jest GUI i automatycznie buduje indeks pod maską. Służy pdftotextdo konwersji plików PDF na tekst.

Acrobat Reader (przynajmniej wersja 9 pod Linuksem) ma ograniczone możliwości wyszukiwania wielu plików (możesz wyszukiwać we wszystkich plikach w katalogu).

Gilles „SO- przestań być zły”
źródło
-1

gPDFText konwertuje treść ebook PDF na tekst ASCII, sformatowany dla akapitów długich linii, Działa dla mnie i ma interfejs graficzny.

Charles
źródło
3
Witam i witam na stronie. Chcemy, aby odpowiedzi były tutaj nieco bardziej wyczerpujące. Na przykład możesz dodać, gdzie gPDFTextmożna uzyskać, w jaki sposób można go zainstalować i jak posłużyć do udzielenia odpowiedzi na pytanie PO.
terdon