Jak mogę wyodrębnić tekst z obrazów?

Nie mówię o zeskanowanych plikach, ale o obrazach różnorodnych w ogrodzie, na przykład podczas robienia wysokiej rozdzielczości zdjęcia tablicy podczas zajęć i jest ładnie odręcznie napisane; lub gdy sfotografujesz stronę z książki kucharskiej i chcesz przepis w formacie tekstowym.

Jakieś darmowe i otwarte oprogramowanie?

Próbowałem tesseract, a wyniki były okropne.

software-recommendation images ocr Strapakowsky
źródło

Potrzebuję OCR, który obsługuje jednocześnie bengalski i angielski.

wszystkie

Odpowiedzi:

Wyodrębnianie tekstu z obrazów nazywa się, OCRa Ubuntu ma stronę wiki poświęconą OCR . Z tej strony:

Dostępne narzędzia OCR

Repozytoria Ubuntu Universe zawierają następujące narzędzia OCR:

gocr - OCR wiersza poleceń
fuzzyocr - wtyczka spamassassin do sprawdzania załączników obrazów
libhocr0 - hebrajski OCR
ocrad - program optycznego rozpoznawania znaków
ocrfeeder - Analiza układu dokumentu i optyczny system rozpoznawania znaków
ocropus - analiza dokumentów i system OCR
tesseract-ocr

Wieloskładnikowe repozytoria Ubuntu zawierają również:

pismo klinowe - wielojęzyczny system OCR

Niektóre pakiety są nieaktualne, ale nowe nieoficjalne można znaleźć w Alex_P PPA (PPA dodaje kod: ppa: alex-p / notesalexp). Jeśli nigdy nie korzystałeś z PPA, sprawdź, jak dodać oprogramowanie z PPA .

edytuj: Jak pokazano w komentarzu Clara OCR też istnieje, ale zrobiło się oszałamiająco w Hardy, a ich strona internetowa ma ostatnią aktualizację w 2009 roku.

Rinzwind
źródło

Czy masz doświadczenie w korzystaniu z któregokolwiek z tych przykładów? Stałem się trochę sceptyczny wobec zwykłych narzędzi ocr. Numer 7 na liście to ten, którego próbowałem i był po prostu okropny.

Strapakowsky

O ile pamiętam, próbowałem również gocr, z równorzędnymi strasznymi wynikami. Jeśli z powodzeniem spróbowałeś któregoś z nich, jakiej składni użyłeś? Dzięki.

Strapakowsky

Absolutnie nic! Nigdy nie przejmowałem się OCR: D Wyszukiwanie Freshmeat pokazuje Clara OCR i tesseract-ocr;) ( freshmeat.net/search/… )

Rinzwind

Czy się mylę, jeśli powiem, że skuteczne użycie OCR wymaga znajomości procesu i starannej konfiguracji w celu dopasowania do konkretnego obrazu, który ma być skanowany? Tak więc, jeśli mam rację, złe wyniki mogą być spowodowane przez użytkownika, a nie przez oprogramowanie.

OCRdziała najlepiej, jeśli wiesz, jak powstaje obraz i jesteś bardzo dobrze zaznajomiony z oprogramowaniem, którego używasz (ten drugi jest powodem, dla którego nigdy nie miałem okazji go używać).

Rinzwind

tesseract-ocrbyłby świetny w porównaniu do wszystkich innych. Aby zainstalować, uruchom polecenie sudo apt-get install tesseract-ocr.

Zastosowanie jest tesseract filename.jpg output.txt.

Powyższe polecenie wygeneruje output.txt.

Możesz rozważyć wybór odpowiedniego języka. W takim przypadku musisz zainstalować tesseract-ocr-LANGpakiet, w którym LANGjest trzyliterowy kod języka ISO 639-2 . W tej chwili masz 123 języki na repozytorium 18.04. Następnie użyj na przykład:

tesseract mySpanishText.jpg output -l spa

Sudhir Belagali
źródło

Hej, więc to działa, ale nie jest dokładne, a raczej powiedziałbym, że jest 80-85% dokładne. Jak na przykład dla tego obrazu: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , pomieszał znak $, a także większość nawiasów. Kwadratowe, okrągłe, kręcone, wszystkie nawiasy stanowią problem, nigdy nie zostaną poprawnie wyodrębnione. Czy znasz jakieś poprawki?

Milan Chheda,