Jak mogę uzyskać liczbę słów w pliku PDF? Myślę, że większość plików pdf, dla których chcę uzyskać całkowitą liczbę słów, ma osadzoną warstwę tekstową, więc nie potrzebuję OCR.
Zadanie powstało w wyniku wyszukiwania niektórych prac naukowych o znanej wielkości, np. 15 000 słów. Większość artykułów modyfikujących publikuje się w formacie pdf
pdf
word-count
osgx
źródło
źródło
pdftotext
: nie zapomnij o e. I można korzystać z jednego polecenia:pdftotext myfile.pdf - | wc -w
.pdftotext
jest częścią Xpdf, który jest również dostępny dla platformy Windows. Strona pobierania Xpdf znajduje się tutaj: foolabs.com/xpdf/download.html .wc
można również znaleźć, ale alternatywnie można użyć praktycznie dowolnego edytora tekstu, takiego jak Word lub LibreOffice Writer. Liczą też słowa. (W przypadku LibreOffice Writer przejdź do Plik -> Właściwości -> Statystyki)To trudne zadanie, niełatwe do rozwiązania. Jeśli naprawdę chcesz uzyskać dokładny wynik, skopiuj akapit po akapicie dla przeglądarki PDF do pliku tekstowego i sprawdź to za pomocą
wc -w
narzędzia. Powodem, dla którego nie należy używaćpdftotext
w takim przypadku jest: formuły matematyczne mogą również dostać się do wyniku i traktowane jako „słowa”. (Alternatywnie możesz edytować dane wyjściowe, które otrzymujeszpdftotext
). Innym powodem, dla którego może się to nie powieść, są nagłówki: „4.3.2 Foo Bar” jest liczony jako trzy słowa.Rozwiązaniem jest liczenie słów zaczynających się od znaku z [A-Za-z]. Więc zwykle robię to w dwóch krokach:
pobierz listę słów uniq i sprawdź, czy w środku jest za dużo fałszywych trafień:
pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words
Nie używam tutaj słownika, ponieważ niektóre błędy ortograficzne nie byłyby liczone jako słowa.
Pobierz tę listę słów i grep ją w wynikach pdftotext:
pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l
Wiem, że można to zrobić w ramach jednej wkładki, ale wtedy nie mogłem łatwo zobaczyć wyniku filtra z pierwszego kroku.
-F
Może pomóc jak stwierdził komentarzem moi poniżej (dzięki).źródło
grep -Ff words
, ponieważ grep narzeka na „Niedopasowane [lub [^”]. Ze strony podręcznika: `` -F, --fixed-strings Interpretuj WZÓR jako listę stałych ciągów, oddzielonych znakami nowej linii, z których dowolne ma być dopasowane. (-F jest określony przez POSIX.) ``Właśnie wypróbowałem bezpłatny program, Abacus Translatora . Możesz przeciągać i upuszczać różne typy plików (w tym PDF), a to wyskakuje w przeglądarce z drukowanym raportem liczby słów dla każdego dokumentu. Dla mnie działało dobrze. (Jest specjalnie stworzony do liczenia słów i ma tylko 435 KB ... to nie jest „duża aplikacja”). Abacus Tłumacza nie działa w wersji PDF 1.5 lub nowszej.
Alternatywnie : możesz po prostu Ctrl+ Azaznaczyć cały tekst w programie Acrobat Reader, a następnie skopiować i wkleić go do programu takiego jak Microsoft Word (który ma liczbę słów na pasku stanu u dołu ekranu).
źródło
Prostym sposobem na zrobienie tego, jeśli używasz Acrobat Pro, jest wyeksportowanie pliku PDF do dokumentu Microsoft Word, a następnie zliczenie słów w programie Word. Możesz też wyeksportować go do zwykłego pliku tekstowego i użyć narzędzia do liczenia słów w wybranym edytorze tekstu /. Właśnie policzyłem słowo w artykule pdf przy użyciu metody Word i zajęło mi to 30 sekund.
Mam nadzieję że to pomoże.
źródło
Możesz zainstalować OCRFeeder . W nim wybierz Plik-> Importuj PDF-> Automatycznie wykryj i rozpoznaj wszystkie strony-> Eksportuj do ODT, a dokument piszący libreoffice będzie gotowy na zliczanie słów lub dowolną inną funkcję RTF, której chcesz użyć.
źródło
Uważam, że słowo „licznik” zawarte w narzędziach abrakadabry jest wygodne. Instalacja jest jednak nieco dziwna.
źródło
Możesz użyć kodu JavaScript konsoli Adobe Acrobat z następującym kodem, który wziąłem z odpowiedzi Dave'a Merchanta na forums.adobe.com :
Testowane z Adobe Acrobat Pro DC 2018.011.20040 na Windows 7 SP1 x64 Ultimate.
Aby włączyć konsolę JavaScript:
Aby uruchomić okno konsoli JavaScript:
CTRL + J
Do Twojej wiadomości, jeśli masz źródło LaTeX odpowiadające plikowi PDF: Prawidłowa liczba słów w dokumencie LaTeX .
źródło
Standardem używanym przez tłumaczy od około 2000 roku jest AnyCount Word Count Tool. Zlicza słowa w formacie PDF i 37 innych formatach.
źródło
Ctrl+ Shift+ Fwpisz wyszukiwanie zaawansowane, wpisz słowo, a policzy, ile razy znajduje się w dokumencie. To nie jest rakieta.
źródło