Pracuję nad dość wieloma modelami statystycznymi, takimi jak Ukryte Modele Markowa i Modele Mieszanki Gaussa. Widzę, że szkolenie dobrych modeli w każdym z tych przypadków wymaga dużej (> 20000 zdań dla HMM) ilości danych, które są pobierane z podobnych środowisk, jak ostateczne użycie. Moje pytanie brzmi:
- Czy w literaturze istnieje koncepcja „wystarczających” danych treningowych? Ile danych treningowych jest „wystarczająco dobre”?
- Jak obliczyć, ile zdań jest potrzebnych do trenowania „dobrych” (dających dobrą dokładność rozpoznawania (> 80%)) modeli?
- Skąd mam wiedzieć, czy model został odpowiednio przeszkolony? Czy współczynniki w modelu zaczną wykazywać przypadkowe fluktuacje? Jeśli tak, jak odróżnić przypadkowe fluktuacje i rzeczywiste zmiany wynikające z aktualizacji modelu?
W razie potrzeby większej liczby tagów prosimy o zmianę tagu na to pytanie.