Czy istnieje sposób na utworzenie pliku PDF tylko ukrytej warstwy tekstowej pliku DjVu?
Wiem jak używać
djvused myfile.djvu -e 'output-txt' > myfile.dsed
aby wygenerować skrypt DjVu, który zawiera współrzędne x, y każdego słowa na każdej stronie, ale jak przekonwertować to na PS lub PDF? Jestem pewien, że ktoś ma skrypt.
Plik dsed zaczyna się od S-wyrażeń takich jak ten ( kliknij tutaj, aby uzyskać więcej informacji ):
select; remove-txt
# -------------------------
select "myfile_0000.djvu"
set-txt
(page 108 107 1176 1725
(column 941 1694 1176 1725
(region 941 1694 1176 1725
(para 941 1694 1176 1725
(line 941 1694 1176 1725
(word 941 1694 999 1723 "another")
(word 1024 1696 1176 1725 "word")))))
(column 108 107 805 1519
(region 108 107 805 1519
(para 226 1491 701 1519
(line 226 1491 701 1519
(word 226 1491 701 1519 "example")))
(para 350 1370 534 1396
itp…
Dzięki
Najprostszym sposobem na to jest konwersja do DjVu na PDF (upewnienie się, że warstwa OCR jest zachowana w PDF). Następnie uruchomić:
gdzie użytkownik określa
${input_pdf}
i${output_pdf}
.gs
usuwa (-dFILTERIMAGE
) wszystkie obrazy ised
sprawia, że PDF renderuje ukryty tekst OCR jako widoczny (zmieniając polecenie PDF3 Tr
lub polecenie „ukrytego renderowania tekstu” na0 Tr
„domyślne renderowanie tekstu”). Ostatniepdftk
polecenie nie jest absolutnie konieczne, ale pierwsze to, w przeciwnymsed
razie nie byłoby w stanie zmienićTr
polecenia PDF .źródło