Zamierzam tesseract przeszkolić, aby rozpoznać informacje poufne (3-literowe, po których następują cyfry, chodzi o to, aby znaleźć 3 litery, więc po przetworzeniu możemy zablokować ten dokument, ponieważ ma on poufne informacje). Podczas gdy poufne informacje mają wysoki priorytet, dokładność również jest kluczowa, a nieco niższa prędkość.
Bieżące testy pokazują (przy użyciu najlepiej wyszkolonych danych), że tesseract z auto-rozrzedzonym tekstem z segmentacją OCD znajduje go jednak znacznie wolniej (szczególnie w przypadku większych plików). Ta segmentacja również daje dużo bardziej losowe znaki (co nie jest problemem aż do punktu, ponieważ postproccess usuwa większość z nich poza:;; i &).
Dla mnie są to opłacalne opcje:
- Dostrój dla:;! & Amp; znaków, aby upewnić się, że dokładnie wie, jak je rozpoznawać, więc gdy proces odgadnie losowy charakter, będzie mniej prawdopodobne, że użyje 4 znaków, których naprawdę nie można usunąć w procesie przetwarzania końcowego.
- Dostrój 3 znaki wskazujące poufne informacje.
- Używanie innego trybu segmentacji, ale uczenie tego samego poufnego wskaźnika informacji (dla lepszej szybkości i dokładności)
Podsumowując, jaki rodzaj szkolenia jest zalecany dla tego rodzaju specyfikacji?
Mam nadzieję, że bardziej doświadczeni użytkownicy tesseract mogą mi pomóc. Dziękuję za przeczytanie mojego posta.
źródło