Nie można skopiować tekstu z pliku pdf

40

Korzystam z czytnika PDF foxit, aby wyświetlić moją książkę tekstową. Chciałbym skopiować tekst z pliku pdf do dokumentu tekstowego, ale mi na to nie pozwala. Mogę dobrze zaznaczyć tekst, ale opcja kopiowania tekstu nie jest dostępna. Mogę kopiować tekst z innych dokumentów, ale nie z niektórych. Czy istnieje sposób obejścia tej ochrony w systemie Windows?

Jonno_FTW
źródło
Widzę, że moja odpowiedź nie działa dla ciebie, więc wysłałeś nagrodę. Jeśli opublikujesz gdzieś przykład takiego pliku pdf, spojrzę na niego.
harrymc
@harrymc: W szczególności chciałem skopiować wartości z tabeli 6.15 acousticslab.org/papers/VassilakisP2001Dissertation.pdf
endolith
@endolith: Zobacz moją nową odpowiedź.
harrymc

Odpowiedzi:

29

Plik pdf prawdopodobnie został zablokowany przed kopiowaniem tekstu. Poniżej znajdują się dwa sposoby odblokowania:

  1. Jeśli plik pdf nie został zablokowany przed drukowaniem, możesz wydrukować go na wirtualnej drukarce pdf, aby utworzyć odblokowany plik. Zobacz:
    „Usuń hasło i odblokuj chroniony plik PDF, który można wydrukować bez znajomości tajemnicy” .
  2. Jeśli funkcja drukowania została zablokowana, zobacz:
    „Usuń ograniczenia i odszyfruj pliki PDF chronione hasłem za pomocą PDF Unlocker” .
harrymc
źródło
Możesz sprawdzić, czy plik PDF jest zablokowany do kopiowania. Z menu Plik wybierz Właściwości, a na karcie Zabezpieczenia jest informacja, czy kopiowanie zawartości jest dozwolone.
Rob Sedgwick,
Próbowałem wydrukować plik PDF. Wydrukowany plik nie pozwala na zaznaczenie tekstu, wygląda na to, że przekonwertował tekst na obraz.
queezz
@queezz: Plik PDF musi zawierać obrazy na początek.
harrymc
@harrymc Tak, są obrazy. Ale tekst jest również konwertowany na obrazy. Opcja Google Chrome działa dobrze na tym samym dokumencie.
queezz
Twój pierwszy link prowadzi do primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe, co jest złe, nie działa i wygląda na to, że nigdy go nie zarchiwizowałeś na archive.org. Twój drugi link jest w porządku, ale prowadzi do strony udostępniania plików dfiles.eu/files/7kiqyvswk, ale plik jest w porządku, sprawdzony za pomocą virustotal. Ale nie tak łatwo je znaleźć, ponieważ na tej stronie mydigitallife znajdują się różne linki. W tym miejscu jest napisane: „PDF Unlocker to bezpłatne, ale przyjazne dla użytkownika narzędzie, które można pobrać tutaj poprzez link (aktualna wersja 1.0.4)”.
barlop
25
  1. Otwórz plik PDF w Google Chrome (przeciągnij i upuść plik PDF do Chrome).
  2. Wydrukuj konkretną stronę jako plik PDF lub po prostu otwórz podgląd wydruku.
  3. Teraz możesz skopiować tekst z podglądu wydruku lub wydrukować plik PDF. Ale nie sądzę, żebyś mógł skopiować tabelę bezpośrednio.
Khaleel
źródło
4
To też działa dla mnie. To najłatwiejsza metoda, jaką tu widzę.
endolith
3
Absolutnie genialny. Aha, możesz przeciągnąć pliki na pasek kart Chrome, aby przy okazji szybko je otworzyć.
iono
Żadna z tych metod nie działała dla mnie w Chrome 53. Czy luka prawdopodobnie została zamknięta?
Simon East
11

Udało mi się utworzyć wersję pliku PDF bez DRM przy użyciu Ghostscript (dostępnego dla systemu Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

Powstały plik stripped.pdfmożna załadować do Adobe Reader, a Reader z przyjemnością pozwoli ci skopiować dowolną jego część. Zachowuje również większość formatowania tabeli.

Michael Hampton
źródło
To jest genialne. Mój księgowy podatkowy odmawia udostępnienia plików PDF w formacie innym niż DRM ani hasła do usunięcia DRM. To rozwiązuje mój problem. Wspaniała robota!
kevinarpe
Jeśli plik PDF ma hasło, pamiętaj o włączeniu -sPDFPasswordprzełącznika ( -sPDFPassword=password).
palswim
2

Udało mi się pomyślnie skopiować tabelę z pliku PDF przy użyciu Okulara (dla Linuksa; część KDE). Aby to zrobić, musiałem przejść do ustawień Okulara i odznaczyć opcję „Przestrzegaj ograniczeń DRM”.

Wiem, że tak naprawdę nie pomaga ci to, ponieważ używasz systemu Windows, ale jest to możliwe, jeśli masz pod ręką maszynę z systemem Linux lub chcesz ją zainstalować.

Niestety był to zwykły tekst bez formatowania, ale wygląda na to, że odtworzenie tabeli nie powinno być zbyt trudne. Możesz zobaczyć wyniki mojej przygody z kopiowaniem i wklejaniem tutaj .

Michael Hampton
źródło
Po to jest VirtualBox. : DI może również kopiować zwykły tekst bez formatowania, ale wybranie jednej kolumny na raz jest dość łatwe do wyeksportowania.
endolith
Wygląda na to, że najlepiej nadaje się do tablic liczb, ponieważ Okular pozwala na prostokątny wybór tekstu i wyodrębnianie pojedynczej kolumny w kolejności.
endolith,
Prawdopodobnie dla pojedynczych kolumn. W przypadku całego stołu zobacz moją drugą odpowiedź .
Michael Hampton
Pamiętaj, że Okular może działać w systemie Windows. W rzeczywistości wiele programów KDE może działać w systemie Windows .
Bakuriu,
1

Możesz użyć GT Text to program, który tłumaczy obrazy (także migawki pdf = obraz) na tekst. Możesz wybrać obszar i skopiować go do schowka To jest bezpłatne

Oficjalna strona główna to http://gttext.googlecode.com

David
źródło
1

jeśli kopia jest wyszarzona, co teraz jest dla ciebie wątpliwe, plik PDF jest „zablokowany”, można go odczytać, ale w rzeczywistości powstrzymuje cię przed kopiowaniem / wklejaniem czegokolwiek.

Ta strona odblokuje plik PDF

https://smallpdf.com/unlock-pdf

barlop
źródło
0

Jeśli szukasz tylko krótkich fragmentów, często możesz wpisać kilka słów w google w cudzysłowie i znaleźć dokładną wycenę zeskanowaną w innym formacie lub wpisaną przez kogoś innego.

Inną opcją jest „Dokument ze zdjęcia” w aplikacji Dokumenty Google na Androida, która prześle tekst przez OCR. Oczywiście jest to podatne na błędy.

Chciałbym, żeby funkcja blokowania plików PDF nigdy nie istniała. :(

endolit
źródło
0

Odpowiedź na endolith:

Twój plik PDF jest chroniony przed kopiowaniem, ale nie jest chroniony przed drukowaniem.

Tak więc wydrukowałem jedną stronę zawierającą tabelę 6.15 na innym pliku PDF, który nie jest chroniony przed kopiowaniem, wybrałem i skopiowałem tabelę, a następnie wkleiłem ją do programu Word. Ku mojemu wielkiemu zaskoczeniu rezultatem pasty były kompletne śmieci.

Spojrzałem teraz na ten stół i znalazłem bardzo zaskakujący wynik: To nie jest stół!

W rzeczywistości jest to montaż małych fragmentów tekstu, umieszczonych na stronie tak, aby wyglądały jak stół. Ale to nie jest prawdziwy stół.

Najlepsze, co możesz zrobić, to przepisać całą tabelę lub po prostu użyć w swojej pracy zrzutu ekranu tego złożonego tekstu przypominającego tabelę.

Oto mój zrzut ekranu tabeli zaczerpnięty z wygenerowanego jednostronicowego dokumentu pdf :

obraz

harrymc
źródło
Próbowałem wydrukować go za pomocą 2 programów, ale dostałem tylko pustą stronę.
endolith,
Korzystając z Foxit Reader , ustawiłem się na stronie, a następnie wydrukowałem bieżącą stronę na drukarce pdf (użyłem Cute Pdf Writer ). Spróbuję przeanalizować problem z skopiowaniem tabeli tego wieczoru,
harrymc
Próbowałem PrimoPDF i qvPDF (który używa GhostScript)
endolith
Zobacz mój powyższy dodatek.
harrymc
... ja też dodałem jedno-stronicowy pdf tutaj (60 sekund czasu oczekiwania).
harrymc
0

Inną możliwością jest Evince .

W systemie Windows domyślnie obsługuje kopiowanie.

W systemie Linux kopiowanie można włączyć, sprawdzając override_restrictionsustawienie, jeśli jeszcze nie jest, postępując zgodnie z tymi instrukcjami ( dconf-editor/org/gnome/evinceoverride_restrictions).

endolit
źródło