Automatyczna konwersja formatu PDF do formatu czytelnego

1

Mam przyjaciela, który jest niewidomy, a ja mam plik PDF, który chciałbym mu przeczytać.

Plik PDF ma około 200 stron pięknie zaprojektowanego tekstu (z kilkoma obrazkami i rysunkami zawierającymi tekst, ale są one na tyle rzadkie, że można je pobrać ręcznie). Niestety struktura logiczna pliku PDF jest źle reprezentowana: plik PDF nie jest świadomy dwu-kolumnowego przepływu tekstu, a żaden z wpisów indeksu i spisu treści nie jest w rzeczywistości linkami.

Mam łatwy dostęp do komputera z Linuksem i nieco mniej łatwy dostęp do komputera z systemem Windows XP, a także znam wyrażenia regularne i języki skryptowe do automatyzacji postprocesora.

Do tej pory znalazłem sposób, aby wyciąć plik PDF na pół w pionie (używając kodu z http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/ , po przekonwertowaniu pliku PDF na PDF1.4, aby nie zawierał crossrefstreamu ani niczego, co został wywołany), tak że większość treści jest w odpowiedniej kolejności, a następnie za pomocą pdftohtml wyodrębnić tekst z pewnym znacznikiem. Niestety, nie jest to w stanie odtworzyć logicznej struktury dokumentu (rozpoznaje niektóre oznaczenia kursywą, ale traci już wszystkie nagłówki rozdziałów, sekcji i podsekcji, które zawsze są wyróżniane przy użyciu spójnego użycia rozmiaru i koloru czcionki, nie wspominając o przerwach akapitu itp.)

Miałem duże nadzieje Kaliber , ale to narzędzie do konwersji nie radzi sobie również z źle zaznaczonymi dwubolumnowymi plikami PDF, a także nie może wyprowadzić struktury z użytych czcionek, chociaż ma pewne zalety dla wspólnego przechowywania akapitów.

Jak przekonwertować mój plik PDF na format odpowiedni dla osoby niewidomej?

Anaphory
źródło
Nie wiem, ale mogę zasugerować, aby spojrzeć na pdftk, pdfjam, pdflatex ... Powodzenia.
Hastur