W systemie Linux - jak wyodrębnić tekst, .pdf
w którym tekst to tak naprawdę tekst, a nie skanowany obraz? Chcę czegoś, czego mogę używać w wierszu poleceń / w skrypcie, a nie interaktywnie. (Nie chcę konwertować .tif
i używać OCR - tekst jest już dostępny w .pdf
pliku, więc po co wprowadzać niedokładności z niedoskonałego OCR?)
23
Odpowiedzi:
pdftotext
dołączony do programu poppler spróbuje wyodrębnić dowolny tekst znaleziony w pliku PDF.źródło
Odpowiedź Ignacio jest w porządku. W rzeczywistości byłaby to pierwsza rzecz na mojej liście. Cóż, to może być może zasugerować
pdftohtml
narzędzie, które jest również dostarczane z programem poppler, w połączeniu z pdfreflow, jeśli chcesz spróbować ponownie złożyć tekst w akapity itp. (Oczywiście, da to wynik HTML, ale konwersja HTML na zwykły tekst może robić to na wiele sposobów).Oto kilka innych opcji.
Narzędzie
ebook-convert
wiersza polecenia Calibre , które może konwertować pliki .PDF na zwykły tekst (lub RTF lub wiele formatów ebooków, takich jak ePub itp.)pdftxtextract
z PodofoAbiword można wywoływać z wiersza poleceń, aby konwertować między dowolnymi formatami, które może wprowadzać / eksportować, a przy odpowiedniej wtyczce importu obejmuje to pliki PDF:
abiword --to=txt file.pdf
(Szczerze mówiąc, myślę, że zarówno AbiWord, jak i kaliber używają bibliotek poppler, ale nie jestem pozytywny.)
źródło