Jak zainstalować nowy pakiet językowy dla Tesseract 16.04

19

Właśnie zainstalowałem gscan2pdf v1.3.9, a także Tesseract. Co do tego ostatniego, najpierw pojawił się na dole mojej listy zainstalowanego oprogramowania, ale teraz wydaje się, że zniknął, chociaż nadal działa (myślę).

W każdym razie próbuję przekształcić pdf zeskanowanego dokumentu w tekst edytowalny, ale dokument nie jest w języku angielskim, więc gscan robi z niego bałagan.

Jedynymi opcjami mam kiedy iść do Tools > OCR > Language to recognizeto English, equi osd. Jakieś pomysły na to, jak zainstalować konkretny pakiet językowy?

Nie jestem doświadczonym użytkownikiem Linuksa, więc instrukcje byłyby bardzo mile widziane.

maa
źródło

Odpowiedzi:

33

Wystarczy zainstalować niezbędny język ocr, używając tego:

sudo apt-get install tesseract-ocr-[lang]

Gdzie może być [język]

all

LUB

afr
amh
ara
asm
aze
aze-cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi-sim
chi-tra
chr
cym
dan
dan-frak
deu
deu-frak
dev
dzo
ell
enm
epo
est
eus
fas
fin
fra
frk
frm
gle
gle-uncial
glg
grc
guj
hat
heb
hin
hrv
hun
iku
ind
isl
ita
ita-old
jav
jpn
kan
kat
kat-old
kaz
khm
kir
kor
kur
lao
lat
lav
lit
mal
mar
mkd
mlt
msa
mya
nep
nld
nor
ori
pan
pol
por
pus
ron
rus
san
sin
slk
slk-frak
slv
spa
spa-old
sqi
srp
srp-latn
swa
swe
syr
tam
tel
tgk
tgl
tha
tir
tur
uig
ukr
urd
uzb
uzb-cyrl
vie
yid
Abhijit Ghosh
źródło
1
„eng” również powinno znajdować się na liście
będzie