Jak duży jest zestaw treningowy?

24

Czy istnieje wspólna metoda określania liczby próbek szkoleniowych wymaganych do wyszkolenia klasyfikatora (w tym przypadku LDA) w celu uzyskania minimalnej dokładności uogólnienia progu?

Pytam, ponieważ chciałbym zminimalizować czas kalibracji zwykle wymagany w interfejsie mózg-komputer.

Lunat1c
źródło
2
user2030669, @cbeleites odpowiedź poniżej jest znakomita, ale z grubsza ogólna zasada: potrzebujesz co najmniej 6 razy więcej przypadków (próbek) niż funkcji.
BGreene,
2
... w każdej klasie. Widziałem także rekomendacje 5p i 3p / klasę.
cbeleites wspiera Monikę

Odpowiedzi:

31

Szukanym terminem jest „krzywa uczenia się”, która daje (średnią) wydajność modelu w zależności od wielkości próbki treningowej.

Krzywe uczenia się zależą od wielu rzeczy, np

  • metoda klasyfikacji
  • złożoność klasyfikatora
  • jak dobrze klasy są rozdzielone.

(Myślę, że dla LDA dwuklasowej możesz być w stanie wyprowadzić teoretyczne obliczenia mocy, ale kluczowym faktem jest zawsze to, czy twoje dane faktycznie spełniają założenie „równej normalnej wielowymiarowej wartości COV”. Chciałbym przejść do symulacji dla obu LDA założenia i ponowne próbkowanie już istniejących danych).

n

  • nn=
  • n

    n

Innym aspektem, który możesz wziąć pod uwagę, jest to, że zwykle nie wystarczy wyszkolić dobrego klasyfikatora, ale musisz także udowodnić, że klasyfikator jest dobry (lub wystarczająco dobry). Musisz więc zaplanować również wielkość próbki potrzebną do weryfikacji z określoną precyzją. Jeśli chcesz podać te wyniki jako ułamek sukcesu wśród tylu przypadków testowych (np. Dokładność / precyzja / czułość / dodatnia wartość predykcyjna producenta lub konsumenta), a zadanie klasyfikacji dodatniej jest dość łatwe, może to wymagać większej liczby niezależnych przypadków niż szkolenie dobry model.

Zasadniczo w przypadku szkolenia wielkość próbki jest zwykle omawiana w odniesieniu do złożoności modelu (liczba przypadków: liczba zmiennych), podczas gdy bezwzględne granice wielkości próbki testowej można podać dla wymaganej precyzji pomiaru wydajności.

Oto artykuł, w którym wyjaśniliśmy te rzeczy bardziej szczegółowo, a także omawiamy, jak
konstruować krzywe uczenia się: Beleites, C. and Neugebauer, U. i Bocklitz, T. and Krafft, C. and Popp, J .: Planowanie wielkości próby dla modeli klasyfikacyjnych. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
zaakceptowano manuskrypt na arXiv: 1211.1323

Jest to „zwiastun”, pokazujący łatwy problem z klasyfikacją (w rzeczywistości mamy jedno takie łatwe rozróżnienie w naszym problemie z klasyfikacją, ale inne klasy są znacznie trudniejsze do rozróżnienia): papier do planowania rozmiaru próbki zwiastuna

Nie próbowaliśmy ekstrapolować na większe rozmiary próbek treningowych, aby określić, ile potrzeba więcej przypadków treningowych, ponieważ rozmiary próbek testowych są naszym wąskim gardłem, a większe rozmiary próbek treningowych pozwoliłyby nam zbudować bardziej złożone modele, więc ekstrapolacja jest wątpliwa. Do tego rodzaju zestawów danych podchodzę iteracyjnie, mierząc kilka nowych przypadków, pokazując, jak wiele rzeczy uległo poprawie, mierzę więcej przypadków i tak dalej.

Może to być dla Ciebie inne, ale artykuł zawiera odniesienia literaturowe do artykułów wykorzystujących ekstrapolację do większych rozmiarów próbek w celu oszacowania wymaganej liczby próbek.

cbeleites obsługuje Monikę
źródło
czy zastosowanie schematu regularyzacji dla mojej LDA pozwoliłoby mi pracować z mniejszym zestawem szkoleniowym?
Lunat1c,
1
@ user2036690, Bardziej oszczędny model (mniej funkcji) wymagałby mniej próbek szkoleniowych. Schemat regularyzacji nie wpłynąłby na liczbę potrzebnych próbek, gdyby tylko zmniejszył wpływ mniej ważnych cech. Pewna racjonalizacja funkcji może pozwolić na mniejszy zestaw treningowy
BGreene
1
Jednak wybór funkcji oparty na danych wymaga ogromnych ilości próbek, ponieważ każde porównanie modelu jest w rzeczywistości testem statystycznym. Wybór funkcji na podstawie wiedzy eksperckiej może jednak pomóc natychmiast. @BGreene: czy możesz wyjaśnić, dlaczego regularyzacja nie może pomóc w zmniejszeniu wymagań dotyczących wielkości próby (np. Biorąc pod uwagę grzbiet na źle uwarunkowanej matrycy kowariancji)? IMHO nie może robić cudów, ale może pomóc.
cbeleites obsługuje Monikę
Cóż, nie wdając się w epicką dyskusję, miałem na myśli sformułowanie regularyzacyjne Friedmana, a nie regresję grzbietową lub inną karaną. Ale współczynniki w obu kierunkach nie są zmniejszane do zera, tak jak w Lasso, więc nie ma to wpływu na wymiarowość, co w rezultacie nie miałoby wpływu na wielkość próbki potrzebną do uniknięcia źle ułożonej matrycy, jak wspomniano powyżej. Przepraszam, jeśli wydaje się to wędrujące
BGreene,
@BGreene: bez gadania, poprosiłem o odpowiedź. Interesujące pytanie brzmi: o ile zmniejszono ogólną df / złożoność poprzez ustawienie współczynników na zero w sposób oparty na danych . W każdym razie przechodzimy do innej historii ...
cbeleites popiera Monikę
4

Pytanie o wielkość próby szkoleniowej oznacza, że ​​będziesz powstrzymywał się przed weryfikacją modelu. Jest to niestabilny proces wymagający dużej próby. Często preferowana jest silna walidacja wewnętrzna za pomocą bootstrapu. Jeśli wybierzesz tę ścieżkę, musisz obliczyć tylko jeden rozmiar próbki. Jak ładnie stwierdzili @cbeleites, jest to często ocena „zdarzeń na zmienną kandydującą”, ale potrzeba co najmniej 96 obserwacji, aby dokładnie przewidzieć prawdopodobieństwo wyniku binarnego, nawet jeśli nie ma cech do zbadania [ma to na celu Margines błędu ufności 0,95 wynoszący 0,1 przy szacowaniu rzeczywistego krańcowego prawdopodobieństwa, że ​​Y = 1].

Ważne jest, aby wziąć pod uwagę właściwe reguły punktacji do oceny dokładności (np. Wynik Briera i prawdopodobieństwo / odchylenie dziennika). Upewnij się także, że naprawdę chcesz klasyfikować obserwacje, a nie szacować prawdopodobieństwo członkostwa. Ta ostatnia jest prawie zawsze bardziej przydatna, ponieważ umożliwia szarą strefę.

Frank Harrell
źródło