Próbuję skopiować i wkleić tekst z pliku PDF.
Jednak za każdym razem, gdy wklejam oryginalny tekst, jest to ogromny bałagan zniekształconych znaków. Tekst wygląda następująco (to tylko jeden mały fragment):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Wypróbowałem to zarówno w czytnikach PDF Adobe, jak i Foxit. Zrobiłem „Zapisz jako tekst” w programie Adobe Reader, a wynikowy plik tekstowy to ten sam zniekształcony tekst.
Masz jakieś pomysły, jak wyciągnąć ten tekst bez zniekształceń? (Inne niż ręczne pisanie ... jest dużo tekstu do wyodrębnienia.)
Odpowiedzi:
Najprostszym sposobem na obejście tego jest otwarcie pliku w najnowszej wersji Google Chrome z wbudowaną wtyczką do czytania plików PDF . Następnie możesz użyć funkcji wyszukiwania Chrome, aby znaleźć tekst, a kopiowanie i wklejanie działa poprawnie.
Chciałbym zagłosować na komentarz pipitas dotyczący odpowiedzi Shiki, ale nie mam odpowiedzi :( Problemem może być niestandardowe kodowanie czcionek, a nie szyfrowanie . W programie Acrobat kliknij opcję Plik -> Właściwości, a następnie kliknij kartę Czcionki, aby wyświetlić kodowanie i kartę Zabezpieczenia, aby sprawdzić, czy jest szyfrowany.
źródło
Odkryłem ten problem z utworzonymi przeze mnie plikami PDF i uważam, że wyśledziłem źródło problemu: używając podglądu systemu Mac OS X, aby zmniejszyć rozmiar pliku PDF.
Utworzyłem niektóre filtry kwarcowe za pomocą narzędzia Colorsync do kompresji obrazów w plikach PDF w celu zmniejszenia ogólnego rozmiaru plików PDF z obrazami. Tak jak opisano tutaj: http://www.macosxhints.com/article.php?story=20031106133852693
Odkryłem, że jestem w stanie łatwo skopiować i wkleić tekst z oryginalnego (nieskompresowanego) pliku PDF, ale po uruchomieniu tego pliku PDF przez utworzony przeze mnie filtr Zmniejsz rozmiar pliku, skompresowany plik PDF nie kopiuje się wyraźnie (wygląda jak napisane przez Ciebie ciągi).
Jednak uruchamiając ten sam oryginalny plik PDF za pomocą funkcji Dokument> Adobe Acrobat Pro> Zmniejsz rozmiar pliku, powstały skompresowany plik PDF może z powodzeniem kopiować i wklejać tekst.
Nie jest to więc całkowicie pomocne w twoim przypadku, zakładając, że twój plik PDF został odebrany z innego miejsca i nie możesz dostać się do oryginalnej wersji, jeśli rzeczywiście byłby w jakiś sposób skompresowany. Ale to może być wytłumaczenie - że plik został w jakiś sposób zniekształcony w celu zmniejszenia rozmiaru pliku.
Może to być przydatne dla twórców treści mających podobne problemy z kopiowaniem i wklejaniem tekstu z plików PDF - zachowaj ostrożność, używając filtrów OS X Quartz, aby zmniejszyć pliki PDF!
--edit-- Zauważyłem również ten problem podczas łączenia plików PDF z podglądem. Dwa źródłowe pliki PDF można dobrze skopiować i wkleić, ale podczas przeciągania strony z jednego pliku do drugiego, a następnie zapisywania połączonego pliku PDF, tekstu w połączonym dokumencie nie można skopiować / wkleić. Są to dwa dokumenty generowane jednocześnie z Filemaker Pro 11 na Macu - nie wyobrażam sobie, że miałyby inne kodowanie lub coś podobnego.
źródło
Istnieje inny bardzo łatwy sposób na obejście tego problemu :)
Wystarczy wydrukować dokument za pomocą drukarki CutePdf, Adobe 2 Pdf lub podobnej rzeczy. Najważniejsze jest to, że musisz wydrukować do formatu pdf.
W wielu przypadkach łatwo usunie problem.
źródło
Rozwiązanie, które działało dla mnie:
Wyniki nie były idealne, ale dostałem 80% drogi i dostarczyłem wystarczająco dużo tekstu, że nie musiałem przepisywać wszystkiego!
źródło
ROZWIĄZANE: (pracował dla mnie w systemie Windows 8, Acrobat XI, Office 2010)
Opcja 1:
BINGO!
Komentarze:
* Pobierz tylko, jeśli nie masz zainstalowanego XPS.
Opcja 2:
Zrób podobne, ale zapisz jako obraz (png, tiff, ...), wtedy będziesz musiał połączyć wszystkie strony z powrotem w jednym pliku „PDF”.
źródło
Acrobat could not perform OCR on this page because: This page contains renderable text
Istnieje ryzyko, że informacje w ogóle nie będą dostępne. Dokumenty PDF to zasadniczo jeden dokument nałożony na inny, jeden prosty tekst, a drugi obraz. Podczas kopiowania i wklejania z dokumentu zaznaczasz tekst, patrząc na obraz, ale to, co jest kopiowane do schowka, to odpowiedni fragment części tekstowej.
W zależności od sposobu utworzenia dokumentu jakość i dostępność części tekstowej mogą się znacznie różnić. Jeśli dokument edytora tekstu zostanie zapisany w formacie PDF, przy użyciu programu Acrobat, Word, sterownika drukarki PDF lub innej metody, jakość będzie zwykle doskonała, ponieważ plik tekstowy można utworzyć z tekstu oryginału. Niektóre znaki specjalne mogą ulec zniekształceniu, ale zwykły tekst jest zwykle w porządku.
Jeśli dokument jest tworzony na podstawie zeskanowanego obrazu, część tekstowa jest zwykle tworzona przez przetwarzanie obrazu przez OCR, co może dawać raczej żałosne wyniki, szczególnie jeśli oryginał jest mniej niż optymalny do tego celu.
Zły program użyty do utworzenia pliku PDF lub złe ustawienia mogą również spowodować, że część tekstowa zostanie całkowicie zniekształcona, podobnie jak niektóre rodzaje szyfrowania mogą zostać uruchomione na pliku po jego utworzeniu.
Najważniejsze jest to, że jeśli tekstowa część dokumentu jest naprawdę zła, nie ma sposobu, aby ją poprawić. Najlepszym rozwiązaniem byłoby całkowite usunięcie części tekstowej i poproszenie programu o ponowne wykonanie procesu OCR. Myślę, że może to być wykonalne z poziomu programu Acrobat, ale nie jestem do końca pewien.
źródło
Jednym z możliwych powodów może być to, że czcionka osadzona w pliku PDF używała niestandardowego kodowania, które nie jest poprawnie stosowane podczas kopiowania tekstu z pliku PDF.
Możesz zastosować różne metody, aby uchronić się przed ręcznym wpisywaniem całej zawartości.
źródło
Jeden z moich użytkowników właśnie zgłosił ten sam problem (PDF został utworzony za pomocą Distillera dla Windows), że skopiowany tekst jest tylko zniekształcony i nie mógł przeszukiwać dokumentu. Próbowałem na komputerze Mac i nie znalazłem żadnego problemu. Okazało się, że korzystałem z aplikacji Apple Preview, a on używał Adobe Reader na swoim komputerze z systemem Windows. Potem wypróbowałem Adobe Reader na komputerze Mac i uzyskałem ten sam efekt. Dla mnie wygląda to tak:
Adobe Reader przegląda i zapisuje zapisany tekst.
Podgląd Apple skopiuje i przeszuka po zastosowaniu wektora kodowania.
Nie mogę tego powiedzieć na pewno, ale to wyjaśniałoby moją obserwację. I rzeczywiście pozwoliłoby to na wszelkiego rodzaju kodowanie podczas zapisywania połączonych / zmniejszonych plików, jak opisano w innym poście tutaj: dzięki Preview możesz nadal wyciągać tekst.
Najpierw pomyślałem, że bardziej logiczne byłoby zakodowanie osadzonego podzbioru czcionek jako ciągłych wpisów zamiast pozostawiania dziur w środku i używania oryginalnej lokalizacji znaków. Ale potem zdałem sobie sprawę, że dzięki zastosowaniu wektora kodującego do podzbioru czcionek z oryginalnymi wpisami często używane znaki mogą mieć mniej bitów ustawionych na 1 w bajcie i mogą być lepiej skompresowane (może obniżyć entropię ogólny tekst w ten sposób).
źródło
Przesłanie go do dokumentów Google i użycie opcji Widok> Zwykły HTML zapewnia poprawność tekstu do kopiowania do około 80% przy braku odrobiny spacji.
Ten wątek z przyjętym odpowiedź do tej samej kwestii wyjaśnia to z przykładu roboczego.
źródło
Nie wypróbowałem opcji Dokumentów Google, ponieważ nadal nie jest obsługiwana w moim biurze. Jednak drukując plik do „ScanSoft PDF Create!” z „Acrobat 9” (drukuje cały plik do obrazu) i otwierając wydrukowany plik w „Nuance PDF Converter” (pojawiło się pytanie, czy chcę, aby plik obrazu był możliwy do wyszukiwania i edytowania, co wybrałem), byłem w stanie mieć dokument Worda, z którego mogę łatwo skopiować i wkleić. Nie jest to jednak idealne z dokładnością około 80-90%. Ale hej, nadal masz oryginalny plik PDF do porównania i przesunięcia tych części, których po prostu nie można naprawić. Oszczędza czas od pisania całej rzeczy. Mój 2c.
źródło
Zrobiłem kilka plików PDF do edycji ze starą wersją programu Scansoft PDF Converter dla systemu Windows XP, a następnie połączyłem strony w programie Preview dla komputerów Mac. Dla każdej z osobnych stron mogłem poprawnie wyszukiwać, kopiować i eksportować tekst z Adobe Reader na komputerze Mac. Po połączeniu z podglądem i zapisaniu jako jeden plik wszystko wyglądało dobrze na ekranie, ale tylko kilka fragmentów można było poprawnie przeszukiwać / eksportować. Ten problem mnie tu sprowadził.
Posty tutaj dały mi kilka dobrych wskazówek (dziękuję!). Spojrzałem na właściwości pliku czcionek. Pliki jednostronicowe z Win XP (gdzie wszystko jest w porządku) mówiły, że kodowanie to ANSI. Plik połączony w podglądzie (w którym skopiowany tekst jest zniekształcony) pokazywał kodowanie większości czcionek jako „Wbudowane”, a niektóre jako „Roman”.
Rozwiązanie mojego problemu było cały czas pod moim nosem - sam program Scansoft może łączyć pliki. Kiedy użyłem programu łączącego Scansoft i otworzyłem plik na komputerze Mac, wszystkie czcionki były wyświetlane jako kodowane w ANSI, a cały tekst był eksportowany / kopiowany idealnie. Dlaczego na Ziemi nie połączyłem ich w PDF Converter, nie wiem. Dzięki, plakaty!
To samo dotyczy otwierania plików w systemie Linux.
Wiem, że to nie wyjaśnia problemów związanych tylko z systemem Windows - chyba że plik PDF miał podobne mieszane pochodzenie?
źródło