Jak przekonwertować plik pdf na plik ODT?

32

Chcę przekonwertować .pdfplik na .odtplik, aby móc dalej przekonwertować go na .docplik. Czy istnieje oprogramowanie / skrypt, który może to zrobić. Próbowałem skopiować zawartość .pdfpliku i wkleić ją w programie piszącym liberoffice, formatowanie nie zostało zachowane.

Dokument jest poufny, więc wolałbym nie korzystać z żadnej usługi online do konwersji.

Każda pomoc jest bardzo ceniona.

Ankit
źródło
Powiązane (ale nie duplikaty!): Jak przekonwertować plik w formacie odt na pdf?
Eliah Kagan
1
W przypadku pytań szczegółowych LIBREOFFICE / OpenOffice polecam ask.libreoffice.org
Bucic

Odpowiedzi:

15

Byłem zirytowany również brakiem darmowego konwertera PDF na ODT. Nie potrzebowałem nawet nic skomplikowanego. Tylko narzędzie, które generuje pliki ODT, które mogę następnie opatrzyć adnotacjami w LibreOffice (np. W celu wypełnienia formularzy).

Wiem, jak to zrobić ręcznie, konwertując dokument PDF na pliki graficzne, a następnie importując je do LibreOffice, ale to dość nużące.

W końcu napisałem krótki skrypt powłoki, który automatycznie wykonuje wszystkie wymagane kroki. Możesz go znaleźć na https://github.com/gutschke/pdf2odt

Może przyjmować dowolną liczbę plików PDF i plików graficznych jako dane wejściowe i generuje plik ODT, który można otworzyć i edytować w LibreOffice. Obrazy są wyświetlane jako tło strony, więc możesz swobodnie nad nimi pisać. Każdy obraz jest powiązany z własnym stylem strony. Pamiętaj o tym, wstawiając podziały stron i dostosowując styl strony, jeśli to konieczne.

Testowałem skrypt zarówno na Linuksie, jak i na Macu. Biorąc pod uwagę, że potrzebuje tylko garści rozsądnie standardowych narzędzi, powinien być dość przenośny.

gutschke
źródło
Ten skrypt wykonuje zrzuty ekranu z każdej strony i drukuje je w formacie docelowym, dzięki za skrypt Gutschke
Oliver
Użyłem pdf2ookilka lat temu, ale wydaje się, że teraz produkuje uszkodzone pliki dla LibreOffice. Ten skrypt robi to i wiele więcej - dzięki!
eacousineau
3
Skrypt pdf2odt niestety konwertuje na format obrazu, który jest używany jako tło ODT. Nie oczekuj, że będziesz mógł „edytować” dowolny tekst oryginalny.
Richard Elkins
13

Możesz PDF Utilitiesrzucić okiem na (poppler-utils poprzez Synaptic lub apt-get), który zawiera pdftotext :

Poppler to biblioteka do renderowania plików PDF oparta na przeglądarce plików PDF Xpdf.

Ten pakiet zawiera narzędzia wiersza poleceń (oparte na Popplerze) do uzyskiwania informacji o dokumentach PDF, konwertowania ich do innych formatów lub manipulowania nimi:
* pdfdetach - wyświetla lub wypakowuje osadzone pliki (załączniki)
* pdffonts - analizator czcionek
* pdfimages - ekstraktor obrazu
* pdfinfo - informacje o dokumencie
* pdfseparate - narzędzie do ekstrakcji strony
* pdftocairo - konwerter plików PDF na PNG / JPEG / PDF / PS / EPS / SVG za pomocą Kairu
* pdftohtml - konwerter plików PDF na HTML
* pdftoppm - plików PDF na PPM / Konwerter obrazów / PNG / JPEG
* pdftops - konwerter plików PDF na PostScript (PS)
* pdftotext - ekstrakcja tekstu
* pdfunite - narzędzie do łączenia dokumentów

Oczywiście sukces zależeć będzie od sposobu wygenerowania pliku pdf. Jeśli to, co chcesz w postaci pliku tekstowego, można następnie Zapisz że jako plik .odt.

Edycja: Zapomniałem podać źródło wyceny. Pochodzi z zakładki opisu w Synaptic dlaPDF Utilities (based on Poppler).


źródło
3
Z tej listy pdftohtmlmusi najlepiej pasować do zadania, ponieważ HTML może przenosić formatowanie. Następnie HTML można przekonwertować na ODT lub DOC.
imz - Ivan Zakharyaschev
10

LibreOffice jest w stanie importować .pdfpliki. Wystarczy otworzyć go w bieżącej wersji LibreOffice, aby uzyskać najlepsze wyniki. Dokument zostanie jednak otwarty jako rysunek i będziesz mógł go przekonwertować tylko na jeden z obsługiwanych formatów obrazu, a nie jako dokument Writer.

Oczywiście nie wszystkie formatowanie jest zachowane, ale przynajmniej niektóre.

giętarka
źródło
1
Ostatnio go wypróbowałem i jest to po prostu okropne, nie oszczędza nawet trochę formatowania. Co więcej, sprawia, że ​​tekst jest w ogóle nieczytelny.
Cześć Angel
3

Jeśli zainstalowany jest pakiet poppler-utils , poniższy skrypt Nautilus (do umieszczenia w folderze ~ / .gnome2 / nautilus-scripts jako plik wykonywalny) pomoże przekonwertować plik PDF na HTML (opcję „-i” można usunąć, aby dołączyć obrazy), które można następnie otworzyć za pomocą LibreOffice Writer i zapisać jako ODT, chociaż powodzenie konwersji formatowania zależy w dużej mierze od sposobu utworzenia pliku PDF.

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym

Sadi
źródło
Dziękuję za ten pomocny skrypt. Tylko mała uwaga (od man pdftohtml): -noframes : generate no frames. Not supported in complex output mode.Więc -noframesnie przyniesie żadnego efektu z -csetem.
Glutanimate,
2
Dzięki, usunąłem teraz tę zbędną opcję ze skryptu. Wygląda na to, że bardzo przyjemny byłby skrypt bash oparty na zenity, zapewniający GUI dla wszystkich tych opcji ;-)
Sadi
# MHC, wygląda na to, że te informacje są nieprawidłowe; jeśli nie dołączymy -noframes, otrzymamy osobne pliki HTML dla stron pdf; więc włożyłem go ponownie do skryptu.
Sadi
To jest dziwne. To musi być błąd w dokumentacji. Zmienię odpowiednio moją kopię skryptu. Dzięki za heads-up!
Glutanimate
3

Spróbuj Calibre. Konwertuje do formatu HTML, a następnie do innych formatów. Wykonał całkiem niezłą robotę na dużym pliku (183 strony), który w innym przypadku musiałbym wydrukować.

W moim przypadku przekonwertowałem go na epub, ale dla zabawy po prostu przekonwertowałem go na .docx, który okazał się bardzo dobrze.

Krzysztof
źródło