Dane w języku angielskim Tesseract 3.03

4

Tesseract 3.03 został niedawno wydany i właśnie go zainstalowałem. Niemniej jednak dane do pobrania w języku angielskim nie są dostarczane (z https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1 ). Na stronie Tesseract znajduje się link „Pobierz”, ale można znaleźć tylko „Dane w języku angielskim dla Tesseract 3.02”. Gdzie mogę znaleźć te dla 3.03?

MarAja
źródło

Odpowiedzi:

4

Jak wspomniano przez innych, możesz używać pakietów anglojęzycznych 3.02 dla 3.03. Poniżej znajdują się instrukcje:

  1. Pobierz i rozpakuj stąd: 1
  2. Zainstaluj wymagania wstępne i rozpakuj

    `sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev`
    `tar xfv tesseract-ocr-3.02.eng.tar.gz`
    
  3. Wyodrębnij angielski pakiet danych Tesseract do katalogu tessdata w katalogu tesseract-3.03. Zakładając, że zarówno (dane w języku angielskim, jak i źródłowe pliki .tar.gz tesseract) znajdują się w tym samym folderze

    tar zxvf tesseract-ocr-3.02.eng.tar.gz

mv tesseract-ocr / tessdata / . tesseract-3.03 / tessdata /

4. Wróć do katalogu tesseract i zakończ instalację

cd tesseract-3.03

./autogen.sh

./configure

make -j

sudo make install LANGS="eng"

sudo ldconfig

Teraz przetestuj swoją instalację z obrazem testowym w katalogu

tesseract phototest.tif  ans -l eng
cat ans.txt

Wynik:

Jest to 12-punktowy tekst do przetestowania kodu ocr i sprawdzenia, czy działa on na wszystkich typach formatów plików.

Szybki brązowy pies przeskoczył leniwego lisa. Szybki brązowy pies przeskoczył leniwego lisa. Szybki brązowy pies przeskoczył leniwego lisa. Szybki brązowy pies przeskoczył leniwego lisa.

UWAGA: niektóre wiersze mają nieprawidłowe formatowanie ... każda rada, aby je poprawić, byłaby świetna

Pranaysharma
źródło
1

Możesz używać danych językowych z 3.02 na 3.03 RC.

Należy również pamiętać, że wersja 3.03 nie została jeszcze oficjalnie wydana. To jest wersja RC.

Alasdair
źródło