Jak mogę wyodrębnić tekst z obrazów?
Nie mówię o zeskanowanych plikach, ale o obrazach różnorodnych w ogrodzie, na przykład podczas robienia wysokiej rozdzielczości zdjęcia tablicy podczas zajęć i jest ładnie odręcznie napisane; lub gdy sfotografujesz stronę z książki kucharskiej i chcesz przepis w formacie tekstowym.
Jakieś darmowe i otwarte oprogramowanie?
Próbowałem tesseract, a wyniki były okropne.
software-recommendation
images
ocr
Strapakowsky
źródło
źródło
Odpowiedzi:
Wyodrębnianie tekstu z obrazów nazywa się,
OCR
a Ubuntu ma stronę wiki poświęconą OCR . Z tej strony:Dostępne narzędzia OCR
Repozytoria Ubuntu Universe zawierają następujące narzędzia OCR:
Wieloskładnikowe repozytoria Ubuntu zawierają również:
Niektóre pakiety są nieaktualne, ale nowe nieoficjalne można znaleźć w Alex_P PPA (PPA dodaje kod: ppa: alex-p / notesalexp). Jeśli nigdy nie korzystałeś z PPA, sprawdź, jak dodać oprogramowanie z PPA .
edytuj: Jak pokazano w komentarzu Clara OCR też istnieje, ale zrobiło się oszałamiająco w Hardy, a ich strona internetowa ma ostatnią aktualizację w 2009 roku.
źródło
OCR
działa najlepiej, jeśli wiesz, jak powstaje obraz i jesteś bardzo dobrze zaznajomiony z oprogramowaniem, którego używasz (ten drugi jest powodem, dla którego nigdy nie miałem okazji go używać).tesseract-ocr
byłby świetny w porównaniu do wszystkich innych. Aby zainstalować, uruchom poleceniesudo apt-get install tesseract-ocr
.Zastosowanie jest
tesseract filename.jpg output.txt
.Powyższe polecenie wygeneruje
output.txt
.Możesz rozważyć wybór odpowiedniego języka. W takim przypadku musisz zainstalować
tesseract-ocr-LANG
pakiet, w którymLANG
jest trzyliterowy kod języka ISO 639-2 . W tej chwili masz 123 języki na repozytorium 18.04. Następnie użyj na przykład:źródło