Dobry darmowy OCR z GUI do poprawiania błędów? (dla Windowsa)

9

Użyłem SimpleOCR , który ma ładny GUI do poprawiania błędów. Niestety popełnia wiele błędów! (i cierpi na inne błędy i ograniczenia)

Z drugiej strony Tesseract jest dokładniejszy, ale w ogóle nie ma GUI.

Moje pytanie brzmi: czy istnieje bezpłatny program OCR dla systemu Windows, który ma ładny interfejs GUI i niski poziom błędów? Chcę, aby podświetlał podejrzane słowa (przez niepewność OCR, nie tylko sprawdzanie pisowni) i wyświetlał oryginalne słowo (bitmapa) podczas edytowania słowa OCR, podobnie jak robi to SimpleOCR.

Najlepiej byłoby użyć oprogramowania typu open source, a następnie darmowego oprogramowania, a następnie oprogramowania testowego / demonstracyjnego / sprzętowego.

Zrzut ekranu SimpleOCR przedstawiający GUI do korygowania błędów

Hugh Allen
źródło
możliwy duplikat bezpłatnego oprogramowania OCR
Sathyajith Bhat
2
@Sathya: moje szczególne wymagania odróżniają to od tego pytania.
Hugh Allen
Niezupełnie za darmo, ale czy przejrzałeś pakiet Microsoft Office? Pochodzi z OCR. (Poszukaj funkcji „Microsoft Office Document Imaging” w konfiguracji).
Vivelin
@horsedrowner: Właśnie próbowałem. Jego dokładność jest porównywalna z Tesseract, ale wymaga pliku TIFF z odpowiednim ustawieniem DPI lub nie działa i nie ma interfejsu do korygowania błędów OCR.
Hugh Allen,
@Hugh Allen: Czy to prawda? Działa całkiem dobrze, gdy natknąłem się na funkcję menu kontekstowego w OneNote 2007. I użyłem losowego pliku obrazu wklejonego ze strony internetowej ...
Vivelin

Odpowiedzi:

2

Czy próbowałeś już gimagereader , interfejsu GUI dla Tesseract?

ukanth
źródło
Właśnie go wypróbowałem (pod Windows) i nie działa dla mnie - proces kończy się natychmiast bez komunikatu o błędzie :( W każdym razie, patrząc na zrzuty ekranu, nie wydaje się, aby faktycznie podświetlało edytowane słowo. Czy próbowałeś to?
Hugh Allen,
2

OCRopus :

Oprogramowanie jest częściowo oparte na Tesseract, najlepszym obecnie dostępnym silniku OCR typu open source. Chociaż projekt ma zostać wydany pod koniec przyszłego roku i będzie wykorzystywany w projekcie Google do skanowania książek, zespół ma na myśli kilka ciekawych aplikacji:

  • interfejs usługi internetowej
  • PDF, kamera i ekranowy OCR
  • integracja z narzędziami do wyszukiwania na pulpicie: Beagle, Spotlight, Google Desktop

OCRopus (tm) to najnowocześniejszy system analizy dokumentów i OCR, obejmujący wtykową analizę układu, wtykowe rozpoznawanie znaków, statystyczne modelowanie w języku naturalnym i funkcje wielojęzyczne.

Silnik OCRopus opiera się na dwóch projektach badawczych: wysoko wydajnym narzędziu do rozpoznawania pisma ręcznego opracowanym w połowie lat 90. i wdrożonym przez biuro US Census oraz nowatorskich, wysokowydajnych metodach analizy układu.

Program OCRopus jest sponsorowany przez Google i początkowo jest przeznaczony do wysokowydajnych, dużych nakładów na konwersję dokumentów. Oczekujemy, że będzie to również doskonały system OCR do wielu innych zastosowań. alternatywny tekst Spinki do mankietów:


GOCR

GOCR to program OCR (Optical Character Recognition), opracowany na licencji GNU Public License. Konwertuje zeskanowane obrazy tekstu z powrotem na pliki tekstowe. Joerg Schulenburg rozpoczął program, a teraz kieruje zespołem programistów. GOCR może być używany z różnymi interfejsami, co bardzo ułatwia przenoszenie do różnych systemów operacyjnych i architektur. Może otwierać wiele różnych formatów obrazu, a jego jakość poprawia się z dnia na dzień. alternatywny tekst alternatywny tekst

Spinki do mankietów:


Krazy_Kaos
źródło
Czy któryś z nich ma przyzwoity graficzny interfejs użytkownika?
Hugh Allen
1
Edytowane odpowiadają na twoje pytanie .... ale powiedziałbym: „Nie, oni nie”, ale słyszę, że abiword obsługuje OCRopus ( arstechnica.com/open-source/news/2007/08/… )
Krazy_Kaos
1
+1 za dodawanie zrzutów ekranu w celu udzielenia odpowiedzi, a także za mini-przegląd dwóch oferowanych programów ...
Kurt Pfeifle
0

Istnieje również TOPOCR (znany również jako SnapReader), zawierający dodatkowe sprawdzanie pisowni dla 11 języków:

SnapReader może być używany do tworzenia własnych notatek z możliwością wyszukiwania na prawie każdym obrazie dokumentu. Możesz też użyć go jako narzędzia do tworzenia i tworzyć własne treści do edycji za pomocą skanera lub aparatu i zapisywać wyniki w formacie HTML lub PDF. SnapReader może również przekształcać tekst w bardzo wysokiej jakości dźwięk za pomocą Audrey. Możesz więc nie tylko używać skanera lub aparatu do przechwytywania dokumentów, ale możesz także używać przenośnego odtwarzacza muzyki lub smartfona do ich „odczytu”.

wizerunek

harrymc
źródło