Korzyści z próbkowania warstwowego vs losowego do generowania danych treningowych w klasyfikacji

21

Chciałbym wiedzieć, czy są jakieś / jakieś zalety stosowania próbkowania warstwowego zamiast próbkowania losowego, podczas dzielenia oryginalnego zestawu danych na zestaw szkoleniowy i testowy do klasyfikacji.

Ponadto, czy próbkowanie warstwowe wprowadza więcej uprzedzeń do klasyfikatora niż próbkowanie losowe?

Aplikacja, dla której chciałbym zastosować próbkowanie warstwowe do przygotowania danych, jest klasyfikatorem Random Forests, przeszkolonym na oryginalnego zestawu danych. Przed klasyfikatorem jest także etap generowania próbki syntetycznej (SMOTE [1]), który równoważy wielkość klas.2)3)

[1] Chawla, Nitesh V., i in. „ SMOTE: technika nadmiernego próbkowania mniejszości syntetycznej. ” Journal of Artificial Intelligence Research 16 (2002): 321-357.

gc5
źródło

Odpowiedzi:

21

Próbkowanie warstwowe ma na celu podzielenie zestawu danych, aby każdy podział był podobny w odniesieniu do czegoś.

W ustawieniach klasyfikacji często wybiera się, aby upewnić się, że zestawy pociągów i testów mają w przybliżeniu taki sam procent próbek w każdej klasie docelowej, co kompletny zestaw.

W rezultacie, jeśli zbiór danych zawiera dużą liczbę każdej klasy, próbkowanie warstwowe jest prawie takie samo jak próbkowanie losowe. Ale jeśli jedna klasa nie jest bardzo reprezentowana w zbiorze danych, co może mieć miejsce w zbiorze danych, ponieważ planujesz przesadzić klasę mniejszości, wówczas warstwowe próbkowanie może dać inny rozkład klas docelowych w zestawie pociągów i testów niż to, co losowe pobieranie próbek może przynieść.

Należy zauważyć, że warstwowe próbkowanie można również zaprojektować tak, aby równomiernie rozdzielić niektóre cechy w następnym pociągu i zestawach testowych. Na przykład, jeśli każda próbka reprezentuje jedną osobę, a jedną cechą jest wiek, czasem przydatne jest posiadanie takiego samego rozkładu wieku zarówno w pociągu, jak i zestawie testowym.

FYI:

Franck Dernoncourt
źródło