Czy jest jakiś sposób, aby wvWare (lub inne narzędzie wiersza poleceń lub biblioteka Python) czytało plik doc strona po stronie? Nie mogę znaleźć niczego w instrukcji wvWare, ani w Abiword, Antiword czy catdoc.
1
Czy jest jakiś sposób, aby wvWare (lub inne narzędzie wiersza poleceń lub biblioteka Python) czytało plik doc strona po stronie? Nie mogę znaleźć niczego w instrukcji wvWare, ani w Abiword, Antiword czy catdoc.
doc
plików Microsoft Word ( ). Używają go np. OpenOffice, LibreOffice i Abiword, więc to chyba domyślna biblioteka.Odpowiedzi:
Niezwykle brzydkim sposobem na to byłoby poszukiwanie ^ L w oryginalnym dokumencie i ustalenie, gdzie w tekście występują (dokumenty Word w formacie innym niż docx to w większości zwykły tekst: czasami używam
strings
polecenia do odczytania zawartości).^ L to control-L, kod znakowy 12 i czasami nazywany „wysuwem formularza”. Jeśli spojrzysz na surowy dokument Worda w emacs (lub dowolnym edytorze, który pokazuje kody kontrolne), zobaczysz jeden z nich na końcu każdej strony.
źródło