Mam do czynienia z nadzorowanym problemem klasyfikacji binarnej. Chciałbym użyć pakietu GBM do sklasyfikowania osób jako niezainfekowanych / zainfekowanych. Mam 15 razy więcej niezainfekowanych niż zainfekowanych osób.
Zastanawiałem się, czy modele GBM cierpią w przypadku niezrównoważonych rozmiarów klas? Nie znalazłem żadnych referencji odpowiadających na to pytanie.
Próbowałem skorygować wagi, przypisując wagę 1 niezainfekowanym osobom i wagę 15 zainfekowanym, ale uzyskałem słabe wyniki.
Odpowiedzi:
Z mojego doświadczenia wynika, że GBM rzeczywiście cierpi z powodu niezrównoważonych rozmiarów klas. Odniosłem duży sukces stosując próbkowanie SMOTE, które tworzy syntetyczne dane, jednocześnie nadpróbkując klasę mniejszości. Możesz go znaleźć w
DMwR
pakiecie.źródło
Myślę, że twoje dane są podobne do danych Secom, nad którymi pracowałem w przeszłości i napotykałem wiele trudności. Oto, co próbowałem:
Próbowałem także SVM 1-Class, który dał lepsze wyniki w porównaniu do innych, takich jak adaboost, Random Forest. Możesz także tego spróbować.
Widzę, że zadałeś to pytanie rok temu, więc jeśli znalazłeś najlepszy sposób, opublikuj go tutaj, aby uzyskać pomoc w uzyskaniu większej dokładności.
źródło