Mam kilka tysięcy stron zeskanowanych stron książek. Każda strona jest zapisywana osobno jako JPG. Pismo jest jasne, ale czcionki różnią się, a strony zawierają zdjęcia i ilustracje.
Muszę utworzyć listę wszystkich słów pojawiających się w każdym pliku JPG. Czy istnieje narzędzie wiersza polecenia do skanowania obrazu z listą pojawiających się słów? To nie musi mieć idealnego skanowania, tylko oszacowanie.
command-line
ocr
Wioska
źródło
źródło
Odpowiedzi:
tesseract jest prawdopodobnie najczęściej stosowanym rozwiązaniem tutaj. Jest dostępny w większości repozytoriów pakietów, np.
i może być używany z
źródło
Zainstaluj
imagemagick
,pdftotext
(znaleziony w pakiecie o nazwiepoppler-utils
w niektórych menedżerach pakietów) i ocrmypdf . Ten ostatni jest szybki (ocr zajmuje dużo procesora i jest skonfigurowany do używania wszystkich rdzeni), jest oprogramowaniem typu open source i często aktualizowanym oprogramowaniem OCR. To podejście jest prawdopodobnie przesadne, ponieważ faktycznie próbuje przypisać ciąg do każdego słowa zamiast po prostu oznaczać słowo, ale miałem wiele problemów ze znalezieniem dobrego i łatwego w użyciu oprogramowania OCR typu open source. Następnie w katalogu, w którym zapisałeś wszystkie swoje pliki JPG:źródło
ocrmypdf
zrobił mój dzieńSkaluj plik obrazu.png o 480%, zmień na skalę szarości, wypełnij białym kolorem, wyostrz, a następnie wyodrębnij za pomocą tesseract OCR. Przez większość czasu działa dobrze, z wyjątkiem bardzo dużych czcionek i koloru białego na czarnym. Jeśli czcionki są bardzo duże, skaluj tylko 200% lub 300%.
Wynik znajduje się w pliku.txt.
źródło
Dla użytkowników Linuksa nic nie działa tak dobrze, jak użycie Calibre do konwersji pdf na docx. https://calibre-ebook.com/download_linux
źródło
TL; DR
for i in /path_to/*.jpg;do ./myocr.sh $i $(basename $i .jpg);done
Źródło: https://help.ubuntu.com/community/OCR
źródło