Chcesz wyodrębnić tekst z plików PDF, które już zawierają tekst? (tj. możesz kopiować i wklejać fragmenty z nich) Czy chcesz rozpoznać tekst w treści obrazu?
Polecenie, przynajmniej zainstalowane przez HomeBrew, jest po prostu „pdftotext”.
Flash Sheridan
@Fashashheridan Czy mogę zachęcić Cię do wysłania odpowiedzi dotyczącej „pdftotext” i sposobu instalacji za pomocą homebrew? Komentarze mogą zostać usunięte w dowolnym momencie (a także nie pojawiają się w wyszukiwaniach).
nohillside
0
Myślę, że powinieneś móc kopiować i wklejać tekst do innego dokumentu. Aby zaznaczyć cały tekst
Otwórz plik PDF w „Podgląd” i
wybierz „Edytuj | Wybierz wszystko”
wybierz „Edytuj | Kopiuj”
Przejdź do innej aplikacji, powiedz „Edycja tekstu”
wybierz „Edytuj | Wklej”
Pamiętaj, że jeśli spróbujesz to zrobić, a nie ma wklejonego tekstu, tylko kilka pustych wierszy, spróbuj najpierw wydrukować plik PDF do nowego pliku PDF, np.
W Podglądzie wybierz „Plik | Drukuj”
W prawym dolnym rogu wybierz „PDF | Zapisz jako PDF”
Eksportuje nowy plik PDF.
Teraz wypróbuj powyższy proces z tym nowym plikiem PDF. Pracowałem dla mnie!
Chociaż powinno to działać, gdy dokument PDF rzeczywiście zawiera tekst zawartość, nie zachowuje formatowania, aw niektórych przypadkach tworzy tekst śmieci wraz z tekstem, który zostałby uznany za pożądany. Zauważ, że może to być również to samo z innymi metodami, ale uważam, że ważne jest, aby zwrócić uwagę.
user3439894
bez wątpienia - na pewno nie jest idealny i całkowicie zgadzam się ze wszystkim, co powiedziałeś. Dodałem go tutaj tylko jako opcję, którą wcześniej zauważyłem, która działała dla mnie bez instalowania czegokolwiek ;-)
Odpowiedzi:
Na prośbę Patrix, oto kroki, których użyłem do zainstalowania i używania xpdf przez Homebrew:
Zrób to, co każe ukończyć instalację Homebrew, a następnie wykonaj:
Pierwszą nazwą pliku był istniejący plik PDF; drugi to cel. Wyniki były znacznie lepsze niż w (co prawda starej) wersji Adobe Acrobat.
źródło
xquartz
nie jest potrzebny dla narzędzi konsoli wxpdf
. Ponadto istniejepoppler
widelecxpdf
co wydaje się znacznie bardziej aktywne: github.com/scraperwiki/scraperwiki-python/issues/…Wiele metod.
Posługiwać się Dokumenty Google (potrzebujesz konta Google)
Posługiwać się Automator (wymagana praca)
lub aplikacja z App Store, np. PDF do tekstu
źródło
Aktualna wersja Adobe Reader (11.0.09) ma element „Zapisz jako inny” w menu Plik.
Jedną z opcji jest Tekst .
Aplikacja jest darmowa i wykonuje przyzwoitą pracę, generując pliki tekstowe. Wszystkie obrazy w nowym dokumencie zostaną utracone w formacie .txt.
źródło
xpdf
które zainstalowałem z portami:zawiera:
Robi to, co chcesz dla każdego pliku PDF pochodzącego z plik tekstowy (a nie z obrazu):
źródło
Myślę, że powinieneś móc kopiować i wklejać tekst do innego dokumentu. Aby zaznaczyć cały tekst
Otwórz plik PDF w „Podgląd” i
Przejdź do innej aplikacji, powiedz „Edycja tekstu”
Pamiętaj, że jeśli spróbujesz to zrobić, a nie ma wklejonego tekstu, tylko kilka pustych wierszy, spróbuj najpierw wydrukować plik PDF do nowego pliku PDF, np.
Teraz wypróbuj powyższy proces z tym nowym plikiem PDF. Pracowałem dla mnie!
źródło