Niektóre pliki PDF wytwarzają śmieci („ mojibake ”) podczas kopiowania tekstu (nawet jeśli są w porządku). Uniemożliwia to ich przeszukiwanie (cokolwiek, czego szukasz, nie pasuje do śmieci).
Czy ktoś ma łatwe obejście?
Przykłady:
- TEAC TV manual EU2816STF (daje powyższe problemy w programie Adobe Reader zarówno w systemie Windows, jak i na komputerze Mac, ale działa dobrze w wersji zapoznawczej na komputerze Mac)
- Leadtek Winfast PVR2 manual (link FTP; ma również problemy z podglądem na komputerze Mac)
- Instrukcja obsługi karty tunera TV Swann (łącze FTP; ma również problemy z podglądem na komputerze Mac)
- Umowa licencyjna Phonalisc (z nieistniejącego DTMS )
- Kwartalny przegląd funduszy Macquarie IFP
- BAN-TACS Small Business Booklet (wersja zarchiwizowana)
- Ulotka Easterfest 2004 (również z archiwum)
Korzystam z programu Adobe Reader (najnowsza wersja) dla systemu Windows - być może alternatywna przeglądarka może pomóc? Szukam darmowego rozwiązania dla systemu Windows. Otwarte źródło byłoby jeszcze lepsze.
Edycja: Dokumenty dla narzędzia Tekst wielowartościowy wyodrębniają dobre podsumowanie przyczyn niepowodzenia, w tym: (cytowany dokument ostatnio zmodyfikowano w styczniu 2006 r.)
- Tekst może nie mieć odwzorowania Unicode. Czcionki PDF typu 3 często nie mają, a TeX DVI ma znaki, które nie mają odpowiedników Unicode.
- Kodowanie Unicode może być wadliwe. Open Office mapuje niektóre znaki na ten sam kod Unicode, co powoduje, że list aparanta spada i podwaja się.
Wydaje mi się, że najlepszym rozwiązaniem w tych przypadkach byłoby OCR każdego glifu czcionką, aby dowiedzieć się, jaki to naprawdę znak. Zauważ, że byłoby to łatwiejsze niż OCR do skanowania hałaśliwego zeskanowanego dokumentu, ponieważ dostępny jest dokładny kształt glifu (w nieskończonej rozdzielczości, ponieważ jest to obraz „wektorowy”).
źródło
clipbrd.exe
(patrz mydigitallife.info/2008/11/06/… ) możesz zobaczyć, co jest w schowku. Co ci to daje?Odpowiedzi:
Być może Foxit Reader ?
Po prostu sprawdziłem plik PDF, który łączysz z Safari 4.0.4 w systemie Mac OS X 10.6.2 i chociaż jest trochę Engrish , PDF renderuje bezbłędnie bez żadnych „śmieci” na ekranie. Być może masz problemy z Unicode (częściej w systemie Windows niż Mac OS)?
źródło
Najprostszym sposobem na obejście tego jest otwarcie pliku w najnowszej wersji Google Chrome z wbudowaną wtyczką do czytania plików PDF . Następnie możesz użyć funkcji wyszukiwania Chrome, aby znaleźć tekst, a kopiowanie i wklejanie działa poprawnie.
źródło
Na przykład w podręczniku TV : ten sam problem w programie Adobe Reader 8.1.2 na komputerze Mac, ale nie ma problemów z użyciem podglądu komputera Mac do kopiowania lub wyszukiwania tekstu. Również wysłanie go na konto Gmail, a następnie wybranie „Wyświetl”, a następnie „Zwykły HTML” ujawnia tekst. Ale Adobe Reader nie lubi tego.
Jego właściwości dokumentu pokazują „Kodowanie: niestandardowe” dla czcionek. Inny dokument pokazuje takie rzeczy jak „Kodowanie: Ansi” lub „Roman” i nie ma problemów ani z podglądem, ani z programem Adobe Reader na komputerze Mac:
Jednak zarówno przykłady Leadtek , jak i Swann dają problemy w Podglądzie również na komputerze Mac oraz w Gmailu i oba pokazują „Kodowanie: Identity-H”. Test Phonalisc również się nie powiedzie, z „Encoding: Custom”.
Mylące i niespójne, ale na pewnym forum Adobe znalazłem następujące wyjaśnienie dla kolejnego przykładu, który pokazuje „Kodowanie: niestandardowe” (moje wyróżnienie):
To nie wyjaśnia, dlaczego podgląd Maca (i najwyraźniej także Infix) może obsługiwać niektóre przykłady, gdy Adobe Reader zawiedzie, nawet z „Kodowaniem: niestandardowym”. Może Preview nie ma problemów, gdy na komputerze znajduje się dokładna czcionka? A może po prostu zgaduje kodowanie, które dzieje się w przypadku niektórych, ale nie wszystkich dokumentów?
Cokolwiek to powoduje: jeśli przechodzenie przez Dokumenty Google lub Gmail nie działa, być może najłatwiejszym (ale dalekim od łatwego) obejściem jest rzeczywiście zapisanie jako TIFF, a następnie wykonanie OCR . Usługi takie jak Evernote mogą robić to w locie (robi OCR na obrazach; wątpię, że zrobi to OCR na PDF).
źródło
Pobieranie pliku 1 nie powiodło się dla mnie, plik 2 mogłem otworzyć za pomocą xpdf, szybkiej i otwartej przeglądarki plików pdf. Myślę, że nie obsługuje formularzy, ale dla czystego tekstu i grafiki wolę go ze względu na krótki czas uruchamiania.
źródło
Niestety nie można na to poradzić. Dokumenty PDF w rzeczywistości nie zawierają żadnych liter, ale zawierają kształty liter. Innymi słowy, zamiast czytać literę i rysować ją na ekranie Adobe Reader, tak jak każda inna aplikacja do odczytu PDF po prostu narysuje grafikę wektorową zakodowaną w pliku.
Jednak niektóre czytniki PDF są dostarczane z oprogramowaniem, które pozwala analizować kształt i odzyskiwać tekst za pomocą rozpoznawania tekstu. Działa tak samo, jakbyś zeskanował papier z wydrukowanym tekstem i użył oprogramowania, takiego jak ABBYY FineReader, aby przekonwertować go z powrotem na tekst, ale ze względu na nieskończenie wysoką jakość rysunków wektorowych wyniki są zwykle znacznie lepsze niż w przypadku skanowanych dokumentów.
Niektóre dokumenty można zabezpieczyć przed konwersją na tekst przez oszukanie programu Adobe Reader. Na przykład litery można narysować w kilku nakładających się kształtach w taki sposób, aby wizualnie nadal wyglądały tak samo, a oprogramowanie do rozpoznawania tekstu nie rozpoznaje tekstu. Twój dokument jest przykładem takiej ochrony.
Jednym ze sposobów byłoby wydrukowanie dokumentu na obrazie i umożliwienie rozpoznania go przez oprogramowanie do rozpoznawania tekstu. Wyższa rozdzielczość obrazu poprawi jakość. Ta metoda jednak nie jest naprawdę przydatna.
źródło