Wyliczanie akapitów w plikach PDF

1

Czy jest dostępny program lub usługa, która pobiera pliki PDF i automatycznie wylicza akapity? Wykonałem kilka prostych wyszukiwań w Google i nie mogłem znaleźć niczego łatwo dostępnego.

TestBang
źródło

Odpowiedzi:

1

Przez „wyliczenie akapitów” myślę, że masz na myśli stworzenie nowego pliku PDF z numerami wstawionymi przed każdym akapitem i ponowne sformatowanie tekstu w celu dostosowania go do tego i wszelkich innych obiektów (np. Obrazów) przemieszczanych w miarę potrzeb i ponownego sortowania dokumentu.

Plik PDF miał być dokumentem w ostatecznym formacie, więc tak naprawdę nie ułatwia dalszej manipulacji jego zawartością.

W szczególności nie można zagwarantować, że wewnętrzna organizacja pliku PDF zawiera jakąkolwiek koncepcję akapitów, a nawet słów. Nie możesz nawet zagwarantować, że znaki są zakodowane w normalnym kodowaniu - co może utrudnić odróżnienie interpunkcji od liter.

Istnieją biblioteki oprogramowania do odczytywania plików PDF, więc zasadniczo można próbować napisać taki program. Może to być wykorzystane do pracy z plikami PDF, które są tworzone przez jeden określony przepływ pracy przy użyciu określonych produktów. Ogólnie rzecz biorąc, może działać gorzej niż konwersja pliku PDF na obraz i użycie OCR na obrazie.

Tego rodzaju pytanie („Czy istnieje program, który ...”) może być lepiej dostosowane Zalecenia dotyczące oprogramowania - ale byłbym zaskoczony, gdyby coś istniało, które można natychmiast użyć na losowych plikach PDF.

RedGrittyBrick
źródło