Plik .pdf ma dziwne zachowanie w zakresie znakowania

2

Jak widać na poniższym zdjęciu mam .plik PDF to dziwnie się zachowuje, gdy próbuję oznaczyć i cytować część tekstu. Zaimportowałem go do Citavi 5, próbowałem wydrukować plik za pomocą konwertera doPDF 8, Microsoft Print do PDF i OpenText PDF, zachowanie pozostało takie samo. Próbowałem także innych źródeł, ale wydaje się, że wszystkie są oparte na tym samym pliku.

Example

Podczas kopiowania bezpośrednio z pliku pdf wynik wygląda tak:

Overal the tap „haptic For you percep speake to noti than th   ab Podczas gdy inni podchodzą do codzienności Większość implikuje zadania. T wa stawka de

Kiedy używam Microsoft XPS Document Writer, wyjście wygląda jak poniżej, z kilkoma literami oznaczonymi podwójnie. Wygląda tak samo po konwersji na .txt.

XPS file

Podczas kopiowania z pliku przekonwertowanego na .txt lub .xps wygląda to tak:

Wyniki

Ogólnie rzecz biorąc, uczestnicy uznali urządzenie za łatwe w użyciu. Wszyscy lubili   Przycisk tapp („łatwy w użyciu”) andd („łatwy do znalezienia”, „hapticc   sprzężenie zwrotne ”), ale żaden nie zalecił czujnika ciśnienia. Dla wydajności   komponenty, wszystkie uszeregowane jako najniższe diody LED

Konwersja na .txt jest tym, która działa najlepiej, ale nadal musiałbym przeglądać cały cytat, aby usunąć podwójne znaki.

Czy ktoś zna tego rodzaju zachowanie i co mogę zrobić, aby mieć plik, który mogę łatwo zacytować?

Lehue
źródło
Kiedy wybierzesz + skopiuj obszar tekstu, co faktycznie zostanie skopiowane - jeśli wkleisz go do edytora tekstu, takiego jak Notatnik?
MrWhite
@MrWhite dokładnie podświetlona część, co oznacza nonsens
Lehue
1
Przekonwertuj plik PDF na zwykły tekst lub format programu Word i skopiuj stamtąd? Czy to zadziałałoby w celu cytowania?
Edi
@Edi działa lepiej niż kopiowanie pliku .pdf, ale nie jest dobry (patrz edycja)
Lehue
(0) Superużytkownik jest chyba najlepszy Wymiana stosu strona na takie pytanie; lub przynajmniej akceptowalny. (1) Może to być kwestia osobistych preferencji, ale uważam, że materiał jest łatwiejszy do przeczytania, jeśli powie mi, co mi pokaże, zanim mi go pokaże. To znaczy, nie zaczynaj od obrazu i wtedy zacznij o tym mówić. (Inni ludzie mogą myśleć, że sposób, w jaki zorganizowałeś swoje pytanie, jest w porządku.) (2) Nie jestem w 100% pewien, czym jest drugi obraz; rozważyć wyjaśnienie jego wyjaśnienia. (3) Pytanie byłoby łatwiejsze do odczytania, gdybyś uczynił te dwa zdjęcia bliżej tej samej skali. … (Cont)
Scott

Odpowiedzi:

1

Jeśli masz dostęp do oprogramowania Adobe, jest to możliwe do pewnego stopnia. Otworzyłem plik PDF w Photoshopie, aby wydrukować tylko jako obraz (skanowanie dokumentu zrobi to samo) i użyłem OCR Acrobat Pro (Narzędzia & gt; Rozpoznaj tekst), aby znaleźć elementy w kształcie tekstu w dokumencie. Następnie możesz podświetlić i skopiować / wkleić jak zwykle.

wyjście np. kopiuj wklej Uczestnicy wypełnili kwestionariusz po badanie, dzielenie się wrażeniami podczas korzystania z urządzenia środowiska publiczne i wszelkie reakcje, które otrzymali.

Jeśli chodzi o to, dlaczego tak się dzieje, nie mogę ci pomóc, sprawdzanie elementów tekstowych w oryginalnym pliku PDF rzeczywiście pokazuje problematyczne strony jako podzielone pola tekstowe, a nie ciągłe pole, jak można się spodziewać, pozostałe strony, które podświetlają, zwykle nie mam tego problemu.

Nie znam oprogramowania, o którym mówiłeś, ale w przypadku, gdy mają podobną funkcję, jak rozpoznawanie tekstu, wyobrażam sobie, że będzie działać tak samo. Mam nadzieję że to pomoże!

Jaz
źródło
Myślałem o tej metodzie i nawet jeśli mi się to udaje, to jest trochę jak „poddanie się”, jeśli wiesz o co mi chodzi. Tworzenie obrazu, a następnie poleganie na algorytmach w celu poprawnego przetłumaczenia go z powrotem na tekst, może być ryzykowne w przypadkach, gdy liczby są ważne, ponieważ algorytmy te czasami zmieniają liczby z powodu dopasowywania wzorców lub podobnych metod. Oczywiście w moim przypadku twoja odpowiedź doskonale rozwiązuje problem cytowania, chociaż z powodu tego, co wyjaśniłem powyżej, nie zaakceptuję go jeszcze.
Lehue