Mam Linux Mint 17.2 x32 Cynamon. Prawdopodobnie te kroki będą działać również w Ubuntu 14.04 x32.
- Zainstaluj Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Możesz dodać inne języki, instalując dodatkowe pakiety. Ten zrzut ekranu pochodzi z synaptic:
pakiety językowe Tesseract w Synaptic
Korzystanie z Tesseract
OPCJA 1 - z poziomu wiersza poleceń otwórz terminal, a następnie przejdź do folderu, w którym przechowujesz pliki obrazów (jpg, png) i uruchom polecenie:
a) przekonwertować wszystkie pliki graficzne na tekst
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Aby scalić wszystkie pliki tekstowe w jeden, uruchom polecenie cat *.txt >> all.txt
b) przekonwertować wszystkie pliki graficzne na pliki hocr (otwarte w przeglądarce Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
OPCJA 2 - przez GUI
a) Zainstaluj gImageReader i użyj go
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) Drugim zastosowaniem jest VietOCR. Rzeczywista wersja to 4.0, więc pobierz VietOCR-4.0.zip
Rozpakuj pliki i otwórz VietOCR.jar przez Java:
Otwórz VietOCR przez Javę
Jeśli nie masz zainstalowanej Java, możesz zainstalować ją z repozytorium lub możesz zainstalować oficjalną Oracle Java 8. Kroki instalacji Oracle Java 8 w Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Polecam VietOCR, ponieważ pozwala OCR na pliki pdf, konwersja zbiorcza jest również opcją.