Czy istnieje koncepcja „wystarczającej” ilości danych do szkolenia modeli statystycznych?

10

Pracuję nad dość wieloma modelami statystycznymi, takimi jak Ukryte Modele Markowa i Modele Mieszanki Gaussa. Widzę, że szkolenie dobrych modeli w każdym z tych przypadków wymaga dużej (> 20000 zdań dla HMM) ilości danych, które są pobierane z podobnych środowisk, jak ostateczne użycie. Moje pytanie brzmi:

  1. Czy w literaturze istnieje koncepcja „wystarczających” danych treningowych? Ile danych treningowych jest „wystarczająco dobre”?
  2. Jak obliczyć, ile zdań jest potrzebnych do trenowania „dobrych” (dających dobrą dokładność rozpoznawania (> 80%)) modeli?
  3. Skąd mam wiedzieć, czy model został odpowiednio przeszkolony? Czy współczynniki w modelu zaczną wykazywać przypadkowe fluktuacje? Jeśli tak, jak odróżnić przypadkowe fluktuacje i rzeczywiste zmiany wynikające z aktualizacji modelu?

W razie potrzeby większej liczby tagów prosimy o zmianę tagu na to pytanie.

Sriram
źródło

Odpowiedzi:

10

Możesz podzielić swój zestaw danych na kolejne podzbiory zawierające 10%, 20%, 30%, ..., 100% swoich danych, a dla każdego podzbioru oszacuj wariancję dokładności estymatora za pomocą k-krotnej weryfikacji krzyżowej lub ładowania początkowego. Jeśli masz „wystarczającą ilość” danych, wykreślanie wariancji powinno wyświetlać malejącą linię monotoniczną, która powinna osiągnąć plateau przed 100%: dodanie większej ilości danych nie zmniejsza w żaden znaczący sposób wariancji dokładności estymatora.

ogrisel
źródło
Będę musiał tego spróbować. Brzmi interesująco. Dzięki!
Sriram