Czy powinienem używać treningu lstm lub TIFF / BOX?

Zamierzam tesseract przeszkolić, aby rozpoznać informacje poufne (3-literowe, po których następują cyfry, chodzi o to, aby znaleźć 3 litery, więc po przetworzeniu możemy zablokować ten dokument, ponieważ ma on poufne informacje). Podczas gdy poufne informacje mają wysoki priorytet, dokładność również jest kluczowa, a nieco niższa prędkość.

Bieżące testy pokazują (przy użyciu najlepiej wyszkolonych danych), że tesseract z auto-rozrzedzonym tekstem z segmentacją OCD znajduje go jednak znacznie wolniej (szczególnie w przypadku większych plików). Ta segmentacja również daje dużo bardziej losowe znaki (co nie jest problemem aż do punktu, ponieważ postproccess usuwa większość z nich poza:;; i &).

Dla mnie są to opłacalne opcje:

Dostrój dla:;! & Amp; znaków, aby upewnić się, że dokładnie wie, jak je rozpoznawać, więc gdy proces odgadnie losowy charakter, będzie mniej prawdopodobne, że użyje 4 znaków, których naprawdę nie można usunąć w procesie przetwarzania końcowego.
Dostrój 3 znaki wskazujące poufne informacje.
Używanie innego trybu segmentacji, ale uczenie tego samego poufnego wskaźnika informacji (dla lepszej szybkości i dokładności)

Podsumowując, jaki rodzaj szkolenia jest zalecany dla tego rodzaju specyfikacji?

Mam nadzieję, że bardziej doświadczeni użytkownicy tesseract mogą mi pomóc. Dziękuję za przeczytanie mojego posta.

tesseract-ocr Kristóf Horváth
źródło

Zrobiłeś świetną robotę, czyniąc to bardzo specyficznym, ukierunkowanym pytaniem, więc jest to dla niego dobre (w rzeczywistości może prawdopodobnie skorzystać z mniejszej ilości informacji stycznych). To powiedziawszy, nie sądzę, że istnieje "właściwa odpowiedź" na to, o co prosisz. Jest to tak samo sztuka jak nauka, a przy tak ukierunkowanym wymogu wpływają na nią takie cechy, jak określone postacie, które chcesz dyskryminować, oraz milion innych czynników. Myślę, że jedynym sposobem na znalezienie odpowiedzi jest eksperymentowanie. (kont.)

fixer1234

Nie jest to coś, co ktoś może znaleźć w książce odniesienia i nie jest to standardowe, ogólne wymaganie, które można przetłumaczyć z czyjegoś doświadczenia. Podejrzewam, że przyciągnie to bliskie głosy (w tym moje), ale zawsze jest szansa, że dostanie dobrą odpowiedź. Zaczekam i zobaczę, jaki rodzaj odpowiedzi się pojawi. Powodzenia z tym.

fixer1234

@ fixer1234 Dziękuję za opiekę nad mną i na pewno bym dostał twój komentarz jako odpowiedź. Nie oczekiwałem konkretnej odpowiedzi, starałem się unikać testów na wszystkie moje pomysły (ale masz rację, nie da się tego uniknąć), a także chciałem mieć pewność, że moja logika odejmowania przypadków testowych jest co najmniej w porządku.

Kristóf Horváth

@ fixer1234 oh również opublikował to pytanie na forum tesseract (nie łączę go, ponieważ ma ten sam tytuł), więc możesz go z pewnością zamknąć, ale jeśli zostawisz to tutaj przez jakiś czas, może przyciągnąć uwagę innych, których mogę użyć do przerobienia moje pytanie (jeszcze raz), aby uczynić je ogólnymi, a nie konkretnymi.

Kristóf Horváth