Używam pdftotext (część poppler-utils) do konwersji dokumentów PDF na tekst. W większości działa, ale jedną rzeczą, którą chciałbym zrobić, było wstawienie pustych linii między osobnymi akapitami zamiast ich łączenia.
Czy istnieje sposób, aby uzyskać do tego pdftotext? A jeśli nie, to czy istnieje inne narzędzie pdf do tekstu, które może to zrobić?
pdf
conversion
dan
źródło
źródło
PDF to audio software for academic papers?
softwarerecs.stackexchange.com/questions/10640/…Odpowiedzi:
Możesz spróbować
ebook-convert
z Calibre.Jeśli cokolwiek, powiedziałbym, że popełni błąd w przeciwnym kierunku: zbyt wiele podziałów linii.
Inną rzeczą, którą zdecydowanie rozważę, jest konwersja do HTML za pomocą pdfreflow , a następnie konwersja HTML do TXT.
źródło
ebook-convert
nie można przekonwertować układu wielokolumnowego, łączy kolumny w jedną kolumnę. W przypadku układu wielokolumnowegopdftotext
zapewnia znacznie lepszą wydajność. Dalsze ograniczenia opisano na manual.calibre-ebook.com/conversion.html#convert-pdf-documents .Jeśli używasz pdftotext , możesz użyć
-layout
flagi, aby zachować układ tekstu na stronach w wejściowym pliku pdf:źródło
-r
(rozdzielczości, domyślnie 72 dpi)Jako fan otwartego oprogramowania (i automatyzacji) nie chcę tego mówić, ale najlepsze wyniki, jakie właśnie uzyskałem (na dość dużym, złożonym pliku PDF) to otwarcie go w programie Adobe Reader, a następnie wybranie Plik | Zapisz jako tekst.
(Przygotowuję wstępne eksperymenty z analizą tekstu, nie jako czytelnik, ale myślę, że mój pierwszy i drugi wybór byłyby takie same.)
Porównywałem dane wyjściowe obok siebie. Moim drugim wyborem jest konwersja ebook.
Adobe : pozostawione w FF dla podziałów stron, pozostawione w numerach stron, nie przekształciły nagłówków / akapitów w pojedyncze linie, ale naprawiły łączniki. Śmieci, które były ukryte w pliku PDF, nie uzyskały wyniku. Prawidłowo otrzymałem wielkie litery na początku sekcji, np. „The”, nie „T he”, a nawet „T he”.
ebook-convert : Pozostawiono w numerach stron i niektóre ukryte śmieci w nagłówku / stopce (ale bez FF). Konwertuje większość akapitów na pojedyncze wiersze. Te, które przeoczyła, mają jednak podwójne odstępy! Punktory nie zawsze pokrywają się z tekstem. Poprawnie otrzymał „The” na początku rozdziału.
pdftotext (bez --layout) : nieźle, wypunktowane linie, ale hałas nagłówka / stopki. FF są tam. Łączniki usunięte. Najgorszy na początek rozdziału dużych liter: „T \ n \ nhe”.
pdftotext (z --layout) : Podobne, ale więcej wcięć. „T he” na początek rozdziału.
pdftohtml >> pdfreflow >> htmltotext : Usunął numery stron, ale nadal śmieci w nagłówku / stopce. „T he” na początek rozdziału. Łączniki usunięte. (Używa wielu wierszy na akapit, ale nie są to takie same podziały wierszy jak w innych wersjach!)
źródło
ebook-convert
działało dobrze.Jeśli masz konto Google, możesz użyć Dokumentów Google, aby przesłać plik PDF i przekształcić go w tekst do edycji.
źródło
Próbowałem również pypdf i porównałem go z pdftotext na dwóch dokumentach. Miał więcej podziałów linii i podzielił niektóre nazwy sekcji (REFERENCES to REFERENCES).
pdf2txt wykonał pełne śmieci.
Często używam pdfBox (java), jeśli pdftotext psuje dane wyjściowe. Możesz spróbować.
źródło