Tworzenie niezrównoważonego zestawu danych

11

Chciałbym przetestować mój wyszkolony model na niezrównoważonym zbiorze danych. Czy są dostępne algorytmy do generowania danych syntetycznych ze zbilansowanego zbioru danych (spam / nie spam)?

Stuart Peterson
źródło
Zawsze możesz przywrócić równowagę dowolnego zestawu danych, po prostu próbkując jedną klasę.
user2974951,

Odpowiedzi:

8

Wypróbuj SMOTE , który jest algorytmem używanym do nadmiernego próbkowania. Tworzy próbki syntetyczne z klasy, którą chcesz przesadzić z próbkami.

Możesz użyć tego do stworzenia dowolnej liczby potrzebnych próbek.

Mary93
źródło
1
czy SMOTE może być również stosowany do niedostatecznego próbkowania?
Stuart Peterson,
Cóż, można uzyskać podpróbkowanie klasy A przez oversampling klasy notA ...
kjetil b halvorsen
3
@StuartPeterson Nie, SMOTE jest algorytmem nadmiernego próbkowania, ale istnieje wiele innych algorytmów
niepełnego