Kiedy kopiuję tekst z pliku PDF do edytora tekstowego, zostaje on zniekształcony na różne sposoby. Formatowanie, takie jak pogrubienie i kursywa, zostanie utracone; miękkie linie podziału w akapicie tekstu są konwertowane na twarde linie; myślniki przerywające słowo w dwóch wierszach są zachowywane, nawet jeśli nie powinny; a pojedyncze i podwójne cudzysłowy są zastępowane przez? znaki
Idealnie, chciałbym móc kopiować tekst z pliku PDF i przekonwertować formatowanie na kody HTML, „inteligentne cytaty” przekonwertować na „i”, a podział wierszy zrobić poprawnie. Czy jest na to jakiś sposób?
Odpowiedzi:
Po pierwsze, musisz zrozumieć, co to jest plik PDF. Pliki PDF zostały zaprojektowane tak, aby naśladować wydrukowaną stronę i zostały zaprojektowane wyłącznie jako format wyjściowy, a nie format wejściowy. PDF to w zasadzie mapa zawierająca dokładną lokalizację znaków (pojedyncze litery lub znaki interpunkcyjne itp.) lub obrazów. W większości przypadków plik PDF nie przechowuje nawet informacji o tym, gdzie kończy się jedno słowo, a zaczyna inne, a tym bardziej takie rzeczy, jak miękkie łamanie vs. twarde łamanie końców akapitów.
(Kilka najnowszych plików PDF zawiera pewne informacje na temat tych rzeczy, ale jest to nowa technologia i możesz mieć szczęście znaleźć takie pliki PDF. Nawet jeśli tak, przeglądarka plików PDF może o tym nie wiedzieć.)
W każdym razie, od twojego oprogramowania zależy wdrożenie „sztucznej inteligencji”, aby wyodrębnić z lokalizacji poszczególnych znaków to, co jest słowem, co jest akapitem i tak dalej. Inne oprogramowanie zrobi to lepiej niż inne, a także będzie zależeć od tego, jak utworzono plik PDF. W każdym razie nigdy nie należy oczekiwać doskonałych rezultatów. Posiadanie wyjściowego pliku PDF to nie to samo, co dokument źródłowy. O wiele lepiej spróbować to uzyskać, jeśli możesz.
Standardowym rozwiązaniem twojego problemu jest użycie Adobe Acrobat Professional (drogi, nie darmowy czytnik) do konwersji pliku PDF na HTML. Nawet to nie zapewni doskonałych rezultatów.
Istnieje bezpłatne oprogramowanie, którego można użyć do wyodrębnienia tekstu z plików PDF z nienaruszonym formatowaniem, ale ponownie nie oczekuj doskonałych rezultatów. Zobacz np. Kaliber (który można przekonwertować do formatu RTF), pdftohtml / pdfreflow lub edytor tekstu AbiWord (z włączonymi wszystkimi wtyczkami importu / eksportu). Dostępna jest również wtyczka do importu plików PDF dla OpenOffice.
Ale proszę nie oczekiwać perfekcji z żadnym z tych wyników. Idziesz tutaj pod prąd. PDF po prostu nie ma być edytowalnym formatem wejściowym.
źródło
Inną opcją jest pobranie i rozpoczęcie korzystania z bezpłatnej przeglądarki plików PDF, Foxit (jest dobra). Następnie możesz „Zapisz jako” i wybrać .txt, aby przekonwertować go na plik tekstowy. To pozwoli zachować całe formatowanie. Nie wiem, czy możesz zrobić to samo w programie Adobe, ponieważ przestałem go używać jakiś czas temu, kiedy przekonwertowałem na Foxit.
źródło
Istnieje bardzo dobre narzędzie online o nazwie Sej-da . Zajmuje się Advanced Manipulation PDF. Nie ma oprogramowania do pobrania. Ponieważ jest to nowe narzędzie online, obecnie jest jeszcze w fazie beta. Umożliwia wyodrębnianie tekstu z pliku PDF, a także zapewnia mnóstwo innych funkcji PDF
http://www.sejda.com/
Krótki przegląd funkcji sejdy dokonany 14 listopada 2012 r. Przez wersję 3, można znaleźć tutaj:
http://revision3.com/tzdaily/sejda-online-pdf
źródło
Otwórz plik PDF w przeglądarce (Google Chrome i Firefox są testowane), a następnie skopiuj tam swój tekst.
źródło
Możesz do tego użyć Adobe Acrobat Pro.
W przypadku tabel: w programie Acrobat 9/10 dostępna była funkcja wyboru tabel. W programie Acrobat X możesz po prostu kliknąć Zapisz jako> Arkusz kalkulacyjny> Excel. Łączy nawet strony w jeden długi arkusz kalkulacyjny. Niesamowita funkcja.
W przypadku tekstu: Istnieje podobna funkcja eksportowania do MS Word. Zapisz jako> Słowo> Dokument Word.
Źródła:
źródło
Foxit będzie przełączał się między wyświetlaniem oryginalnego pliku jako zwykłego pliku PDF lub jako tekstu, naciskając Ctrl + 6 (przy odrobinie majstrowania przy poziomie powiększenia w trybie tekstowym nie ma zbyt dużego przeskakiwania między czytaniem a kopiowaniem)
źródło
Znalazłem to bardzo przydatne ( Usuń łamanie linii ):
Oto przydatna sztuczka, aby szybko rozwiązać ten problem bez konieczności ręcznego usuwania wszystkich podziałów linii. Zasadniczo wszystko, co robi, to automatycznie zastępuje wszystkie niechciane podziały wiersza pojedynczą spacją, dzięki czemu cały tekst jest łączony w jeden akapit:
1- skopiuj żądany tekst z pliku PDF.
2-wklej do nowego dokumentu Word.
3- kliknij „edytuj”, a następnie „zamień”
4 - upewnij się, że jesteś w polu „znajdź co”
5- kliknij „więcej” niż „specjalne”
6- wybierz „znak akapitu” (na górze listy)
7- kliknij pole „zamień na”
8 - naciśnij raz spację
9 - kliknij „zamień wszystko”
10 - kliknij „ok”, a następnie zamknij pole „znajdź i zamień”.
źródło
Możesz skopiować z Adobe Reader do MS Excel i sformatować (tabelę) tak, jak chcesz, a następnie skopiować i wkleić z Excela. To rozwiązanie działa świetnie. Nie musisz kupować drogiej profesjonalnej kopii Adobe.
źródło
Próbowałem zapisać tekst i format pliku pdf zorganizowanego w tabeli. W programie Acrobat Professional zdałem sobie sprawę, że istnieje opcja „Zapisz jako”, która umożliwia zapisywanie jako dokument programu Excel. To działało dobrze dla moich potrzeb. Zauważyłem również, że istnieje również opcja dokumentu Zapisz jako słowo. Jednak tego nie próbowałem.
źródło