Potrzebuję plików PDF do tekstu, aby móc wyszukiwać je zbiorczo z wiersza polecenia. Czy jest jakiś konwerter dla Ubuntu, OBSD lub podobnej dystrybucji?
Caliber „s ebook-convertprogramu poleceń (lub sam kaliber) ma innej opcji; potrafi konwertować PDF na zwykły tekst lub inny format ebook (RTF, ePub), moim zdaniem generuje lepsze wyniki niż pdftotext, chociaż jest znacznie wolniejszy.
ebook-convert file.pdf file.txt
AbiWord może konwertować między dowolnymi znanymi formatami z wiersza poleceń i przynajmniej opcjonalnie ma wtyczkę importu PDF:
Calibre's ebook-convert ... Czy widziałeś, co robi z ligaturami? bleargh. powiedzmy to tak: nie jest to bardzo skuteczny program. pdftotext jest znacznie bardziej wierny. nigdy nie odkryłem żadnych błędów w danych wyjściowych.
ixtmixilix
1
Możesz użyć mniej do przeglądania plików pdf jako tekstu. Wywołuje preprocesor, tj. Lesspipe, do wywoływania pdftotext lub podobnych narzędzi.
Daniel Näslund,
pdftotextdaje dokładniejsze wyniki niż ebook-converti jest bardzo szybki. ebook-convertjest powolny.
Amit Patel
pdftotextz -layoutopcjami skały! calibrewymaga instalacji ponad 600 MB! To szalone)
Stalinko
9
Możesz konwertować pliki PDF na tekst w wierszu poleceń za pomocą pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspakiet).
Możesz użyć Recoll
(Ubuntu: recoll ; OpenBSD: brak portu, ale jest jeden dla FreeBSD .) Do przeszukiwania różnych sformatowanych typów dokumentów tekstowych, w tym PDF. Jest GUI i automatycznie buduje indeks pod maską. Służy pdftotextdo konwersji plików PDF na tekst.
Acrobat Reader (przynajmniej wersja 9 pod Linuksem) ma ograniczone możliwości wyszukiwania wielu plików (możesz wyszukiwać we wszystkich plikach w katalogu).
pdftotext jest prawdopodobnie tym, czego szukasz: http://en.wikipedia.org/wiki/Pdftotext, chyba że tekst, który chcesz wyodrębnić, jest w rzeczywistości w formie graficznej, co nie jest tak powszechne w przypadku dokumentów pdf.
Witam i witam na stronie. Chcemy, aby odpowiedzi były tutaj nieco bardziej wyczerpujące. Na przykład możesz dodać, gdzie gPDFTextmożna uzyskać, w jaki sposób można go zainstalować i jak posłużyć do udzielenia odpowiedzi na pytanie PO.
pdftotext
=pdfcat
.Odpowiedzi:
Masz wiele opcji!
pdftotext
z popplera już wspomniano.Istnieje program Haskell o nazwie,
pdf2line
który działa dobrze.Caliber „s
ebook-convert
programu poleceń (lub sam kaliber) ma innej opcji; potrafi konwertować PDF na zwykły tekst lub inny format ebook (RTF, ePub), moim zdaniem generuje lepsze wyniki niż pdftotext, chociaż jest znacznie wolniejszy.ebook-convert file.pdf file.txt
AbiWord może konwertować między dowolnymi znanymi formatami z wiersza poleceń i przynajmniej opcjonalnie ma wtyczkę importu PDF:
abiword --to=txt file.pdf
Jeszcze inna opcja pochodzi
podofotextextract
z biblioteki narzędzi podofo PDF. Tak naprawdę tego nie próbowałem.Jeśli połączysz dwa narzędzia Ghostscript
pdf2ps
ips2ascii
masz jeszcze jedną opcję.Mogę wymyślić jeszcze kilka metod, ale na razie zostawię to. ;)
źródło
pdftotext
daje dokładniejsze wyniki niżebook-convert
i jest bardzo szybki.ebook-convert
jest powolny.pdftotext
z-layout
opcjami skały!calibre
wymaga instalacji ponad 600 MB! To szalone)Możesz konwertować pliki PDF na tekst w wierszu poleceń za pomocą pdftotext (Ubuntu: poppler-utils ; OpenBSD:
xpdf-utils
pakiet).Możesz użyć Recoll (Ubuntu: recoll ; OpenBSD: brak portu, ale jest jeden dla FreeBSD .) Do przeszukiwania różnych sformatowanych typów dokumentów tekstowych, w tym PDF. Jest GUI i automatycznie buduje indeks pod maską. Służy
pdftotext
do konwersji plików PDF na tekst.Acrobat Reader (przynajmniej wersja 9 pod Linuksem) ma ograniczone możliwości wyszukiwania wielu plików (możesz wyszukiwać we wszystkich plikach w katalogu).
źródło
pdftotext jest prawdopodobnie tym, czego szukasz: http://en.wikipedia.org/wiki/Pdftotext, chyba że tekst, który chcesz wyodrębnić, jest w rzeczywistości w formie graficznej, co nie jest tak powszechne w przypadku dokumentów pdf.
źródło
gPDFText konwertuje treść ebook PDF na tekst ASCII, sformatowany dla akapitów długich linii, Działa dla mnie i ma interfejs graficzny.
źródło
gPDFText
można uzyskać, w jaki sposób można go zainstalować i jak posłużyć do udzielenia odpowiedzi na pytanie PO.