Czy klasyfikacja GBM cierpi na niezrównoważone rozmiary klas?

16

Mam do czynienia z nadzorowanym problemem klasyfikacji binarnej. Chciałbym użyć pakietu GBM do sklasyfikowania osób jako niezainfekowanych / zainfekowanych. Mam 15 razy więcej niezainfekowanych niż zainfekowanych osób.

Zastanawiałem się, czy modele GBM cierpią w przypadku niezrównoważonych rozmiarów klas? Nie znalazłem żadnych referencji odpowiadających na to pytanie.

Próbowałem skorygować wagi, przypisując wagę 1 niezainfekowanym osobom i wagę 15 zainfekowanym, ale uzyskałem słabe wyniki.

yoyo
źródło
1
(uwaga dodatkowa) Przydałoby się podać, co oznacza GBM i link do pakietu.
Memming
1
Jakiej funkcji utraty używasz w swoim modelu zwiększania gradientu? Jeśli chodzi o niezrównoważone klasy, widziałem słabą wydajność, kiedy użyłem średniego błędu bezwzględnego, ponieważ wydaje się, że faworyzuje najbardziej powszechną klasę. Kiedy użyłem średniego błędu kwadratu, wydajność znacznie się poprawiła
Ryan Zotti
Na wszelki wypadek uważam, że funkcja straty domyślnej używana przez utratę logarytmiczną daszka (dewiacja krzyżowa) jest również bardzo pomocna. (bardzo negatywnie wpływa na niewłaściwe przypadki w negatywnej skali logarytmicznej)
Lily Long

Odpowiedzi:

4

Z mojego doświadczenia wynika, że ​​GBM rzeczywiście cierpi z powodu niezrównoważonych rozmiarów klas. Odniosłem duży sukces stosując próbkowanie SMOTE, które tworzy syntetyczne dane, jednocześnie nadpróbkując klasę mniejszości. Możesz go znaleźć w DMwRpakiecie.

Trey
źródło
Jestem nieco zdezorientowany. Czy GBM nie powinno być podejściem do radzenia sobie z nierównowagą danych? Sprawdź to analyticsvidhya.com/blog/2017/03/…
Lamothy
5

Myślę, że twoje dane są podobne do danych Secom, nad którymi pracowałem w przeszłości i napotykałem wiele trudności. Oto, co próbowałem:

  • Różne techniki pobierania próbek
  • Różne klasyfikatory, takie jak Random Forest, ANN, GBM, Ensemble, itp.

Próbowałem także SVM 1-Class, który dał lepsze wyniki w porównaniu do innych, takich jak adaboost, Random Forest. Możesz także tego spróbować.

Widzę, że zadałeś to pytanie rok temu, więc jeśli znalazłeś najlepszy sposób, opublikuj go tutaj, aby uzyskać pomoc w uzyskaniu większej dokładności.

Ankit
źródło