Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości.
Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia zespołu drzew z bardzo stronniczymi zestawami danych?
Jakie metody klasyfikacji oprócz RF mogą najlepiej poradzić sobie z problemem?
Odpowiedzi:
źródło
Niedoszacowanie klasy większościowej jest zazwyczaj sposobem na osiągnięcie takich sytuacji.
Jeśli uważasz, że masz za mało instancji klasy dodatniej, możesz wykonać nadpróbkowanie, na przykład przykładowe instancje 5n z zamianą z zestawu danych o rozmiarze n.
Ostrzeżenia:
źródło
Dobrym rozwiązaniem jest tutaj również zwiększenie gradientu. Możesz na przykład użyć klasyfikatora zwiększającego gradient w sci-kit learning. Zwiększanie gradientu jest podstawową metodą radzenia sobie z nierównowagą klas poprzez konstruowanie kolejnych zestawów szkoleniowych na podstawie nieprawidłowo sklasyfikowanych przykładów.
źródło
Oprócz zamieszczonych tutaj odpowiedzi, jeśli liczba pozytywnych przykładów jest o wiele za mała w porównaniu z przykładami negatywnymi, zbliża się to do problemu wykrywania anomalii, gdzie pozytywne przykłady to anomalie.
Masz całą gamę metod wykrywania anomalii, od używania wielowymiarowego rozkładu gaussowskiego do modelowania wszystkich punktów, a następnie wybierania tych, które są o 2 lub 3 std od średniej.
Kolejna myśl do przemyślenia - widziałem sporo osób, które losowo próbują negatywne przykłady z większą liczbą przykładów, dzięki czemu obie klasy są takie same. Zależy to całkowicie od problemu, niezależnie od tego, czy chcemy je wyważyć, czy nie.
źródło